Table of Content
Important
Tham khảo
Giảng viên: TS.Nguyễn An Tế tena@ueh.edu.vn
Hình thức lớp học
Báo cáo cuối kì
- File báo cáo:
- Trình bày thuật toán
- Có ví dụ minh họa từng bước → Chứng minh hiểu thuật toán
- Cài đặt: Giải thích được các tham số trong thuật toán
- Nên thay đổi các siêu tham số và so sánh, nhận xét, giải thích
- Source code: Dùng thư viện Sklearn
- Slide báo cáo ở pptx
1. Giới thiệu về máy học
- Dữ liệu (data): có ý nghĩa thực tế, nhưng là rời rạc
- đảm bảo 3 điều kiện:
- real:
- raw: chưa qua xử lý để tránh bias
- recorded:
- đảm bảo 3 điều kiện:
- Thông tin (Information): được lấy ra khi liên kết, so sánh dữ liệu → Mối liên hệ với nhau.
- Chỉ khi gắn với ngữ cảnh
- Khi xử lý data → Info chỉ được dùng hàm aggregate function (Hàm không làm thay đổi bản chất dữ liệu: sum, min, max, avg, count,…)
- Kiến thức (Knowledge): ta quan sát nhiều thông tin và đưa ra nhận định → Quy luật chung
- Phân loại:
- Implicit: Kinh nghiệm cá nhân rút ra. Một thứ mới có trân trị (có thể đúng tại thời điểm này, nhưng sai ở thời điểm khác). Không thể chỉ dạy người khác.
- Explicit: Kiến thức về đạo hàm. Có thể chỉ dạy người khác.
- Phân loại:
- Wisdom: Sự từng trải, rút trích từ kinh nghiệm.
Classification: Phân lớp đa lớp: Dữ liệu được xếp vào 1 lớp. Phân lớp đa nhãn: Một dữ liệu được xếp nhiều nhãn (lớp).
Thuật toán có thuật toán có tham số (parametric), phi tham số (non-parametric) và bán tham số (semi-parametric)?*
Thuật toán có tham số (Parametric algorithms) Định nghĩa: Giả định trước dạng hàm mô tả mối quan hệ giữa biến đầu vào và đầu ra , chỉ cần ước lượng một số hữu hạn tham số để mô tả mô hình.
Đặc điểm:
- Có số lượng tham số cố định (không phụ thuộc vào kích thước dữ liệu).
- Huấn luyện = ước lượng tham số này.
- Giả định mạnh → nếu giả định đúng, học rất hiệu quả; nếu sai, dễ bị bias cao.
Ví dụ:
- Hồi quy tuyến tính: → chỉ cần tìm .
- Hồi quy logistic, Naive Bayes, Perceptron.
Ưu điểm:
- Ít dữ liệu vẫn hoạt động.
- Tính toán nhanh, dễ diễn giải.
- Nhược điểm:
- Kém linh hoạt nếu quan hệ thực tế không đúng với dạng hàm giả định.
Thuật toán phi tham số (Non-parametric algorithms)
Định nghĩa: Không giả định trước dạng hàm cụ thể giữa và . Số “tham số” hiệu dụng có thể tăng theo dữ liệu.
- Đặc điểm:
- Linh hoạt cao, có thể học bất kỳ dạng quan hệ nào (nếu đủ dữ liệu).
- Thường lưu trữ nhiều thông tin từ dữ liệu huấn luyện.
- Cần nhiều dữ liệu để tránh overfitting.
- Ví dụ:
- k-Nearest Neighbors (k-NN).
- Decision Trees.
- Gaussian Processes.
- Ưu điểm:
- Không bị giới hạn bởi giả định hàm ban đầu.
- Khả năng mô hình hóa quan hệ phức tạp.
- Nhược điểm:
- Chậm khi dự đoán (vì phải “tra cứu” dữ liệu).
- Cần nhiều dữ liệu và bộ nhớ.
Thuật toán bán tham số (Semi-parametric algorithms)
Định nghĩa: Kết hợp cả phần tham số (có dạng hàm giả định) và phi tham số (không giả định).
Đặc điểm:
- Một phần của mô hình có số tham số cố định, phần còn lại linh hoạt theo dữ liệu.
- Giảm bias so với parametric và giảm variance so với non-parametric.
Ví dụ:
- Generalized Additive Models (GAMs): kết hợp tuyến tính ở một số biến, phi tuyến ở biến khác.
- Support Vector Machines (SVM): tham số là trọng số vector , nhưng hàm kernel phi tham số.
- Cox Proportional Hazards Model trong phân tích sống sót.
Ưu điểm:
- Cân bằng giữa khả năng diễn giải và tính linh hoạt.
- Nhược điểm:
- Thiết kế mô hình phức tạp hơn.