Table of Content

Important

Tham khảo

Giảng viên: TS.Nguyễn An Tế tena@ueh.edu.vn

Hình thức lớp học

Báo cáo cuối kì

  • File báo cáo:
    • Trình bày thuật toán
    • Có ví dụ minh họa từng bước → Chứng minh hiểu thuật toán
    • Cài đặt: Giải thích được các tham số trong thuật toán
    • Nên thay đổi các siêu tham số và so sánh, nhận xét, giải thích
  • Source code: Dùng thư viện Sklearn
  • Slide báo cáo ở pptx

1. Giới thiệu về máy học

  • Dữ liệu (data): có ý nghĩa thực tế, nhưng là rời rạc
    • đảm bảo 3 điều kiện:
      • real:
      • raw: chưa qua xử lý để tránh bias
      • recorded:
  • Thông tin (Information): được lấy ra khi liên kết, so sánh dữ liệu → Mối liên hệ với nhau.
    • Chỉ khi gắn với ngữ cảnh
    • Khi xử lý data Info chỉ được dùng hàm aggregate function (Hàm không làm thay đổi bản chất dữ liệu: sum, min, max, avg, count,…)
  • Kiến thức (Knowledge): ta quan sát nhiều thông tin và đưa ra nhận định → Quy luật chung
    • Phân loại:
      • Implicit: Kinh nghiệm cá nhân rút ra. Một thứ mới có trân trị (có thể đúng tại thời điểm này, nhưng sai ở thời điểm khác). Không thể chỉ dạy người khác.
      • Explicit: Kiến thức về đạo hàm. Có thể chỉ dạy người khác.
  • Wisdom: Sự từng trải, rút trích từ kinh nghiệm.

Classification: Phân lớp đa lớp: Dữ liệu được xếp vào 1 lớp. Phân lớp đa nhãn: Một dữ liệu được xếp nhiều nhãn (lớp).

Thuật toán có thuật toán có tham số (parametric), phi tham số (non-parametric)bán tham số (semi-parametric)?*

Thuật toán có tham số (Parametric algorithms) Định nghĩa: Giả định trước dạng hàm mô tả mối quan hệ giữa biến đầu vào và đầu ra , chỉ cần ước lượng một số hữu hạn tham số để mô tả mô hình.

Đặc điểm:

  • số lượng tham số cố định (không phụ thuộc vào kích thước dữ liệu).
  • Huấn luyện = ước lượng tham số này.
  • Giả định mạnh → nếu giả định đúng, học rất hiệu quả; nếu sai, dễ bị bias cao.

Ví dụ:

  • Hồi quy tuyến tính: → chỉ cần tìm .
  • Hồi quy logistic, Naive Bayes, Perceptron.

Ưu điểm:

  • Ít dữ liệu vẫn hoạt động.
  • Tính toán nhanh, dễ diễn giải.
  • Nhược điểm:
  • Kém linh hoạt nếu quan hệ thực tế không đúng với dạng hàm giả định.

Thuật toán phi tham số (Non-parametric algorithms)

Định nghĩa: Không giả định trước dạng hàm cụ thể giữa . Số “tham số” hiệu dụng có thể tăng theo dữ liệu.

  • Đặc điểm:
  • Linh hoạt cao, có thể học bất kỳ dạng quan hệ nào (nếu đủ dữ liệu).
  • Thường lưu trữ nhiều thông tin từ dữ liệu huấn luyện.
  • Cần nhiều dữ liệu để tránh overfitting.
  • Ví dụ:
  • k-Nearest Neighbors (k-NN).
  • Decision Trees.
  • Gaussian Processes.
  • Ưu điểm:
  • Không bị giới hạn bởi giả định hàm ban đầu.
  • Khả năng mô hình hóa quan hệ phức tạp.
  • Nhược điểm:
  • Chậm khi dự đoán (vì phải “tra cứu” dữ liệu).
  • Cần nhiều dữ liệu và bộ nhớ.

Thuật toán bán tham số (Semi-parametric algorithms)

Định nghĩa: Kết hợp cả phần tham số (có dạng hàm giả định) và phi tham số (không giả định).

Đặc điểm:

  • Một phần của mô hình có số tham số cố định, phần còn lại linh hoạt theo dữ liệu.
  • Giảm bias so với parametric và giảm variance so với non-parametric.

Ví dụ:

  • Generalized Additive Models (GAMs): kết hợp tuyến tính ở một số biến, phi tuyến ở biến khác.
  • Support Vector Machines (SVM): tham số là trọng số vector , nhưng hàm kernel phi tham số.
  • Cox Proportional Hazards Model trong phân tích sống sót.

Ưu điểm:

  • Cân bằng giữa khả năng diễn giải và tính linh hoạt.
  • Nhược điểm:
  • Thiết kế mô hình phức tạp hơn.