Table of Content

Tham khảo

Hình thức lớp học

Báo cáo cuối kì

1. Giới thiệu về máy học

Important

Tham khảo

Giảng viên: TS.Nguyễn An Tế tena@ueh.edu.vn

Hình thức lớp học

Báo cáo cuối kì

File báo cáo:
- Trình bày thuật toán
- Có ví dụ minh họa từng bước → Chứng minh hiểu thuật toán
- Cài đặt: Giải thích được các tham số trong thuật toán
- Nên thay đổi các siêu tham số và so sánh, nhận xét, giải thích
Source code: Dùng thư viện Sklearn
Slide báo cáo ở pptx

1. Giới thiệu về máy học

Dữ liệu (data): có ý nghĩa thực tế, nhưng là rời rạc
- đảm bảo 3 điều kiện:
  - real:
  - raw: chưa qua xử lý để tránh bias
  - recorded:
Thông tin (Information): được lấy ra khi liên kết, so sánh dữ liệu → Mối liên hệ với nhau.
- Chỉ khi gắn với ngữ cảnh
- Khi xử lý data → Info chỉ được dùng hàm aggregate function (Hàm không làm thay đổi bản chất dữ liệu: sum, min, max, avg, count,…)
Kiến thức (Knowledge): ta quan sát nhiều thông tin và đưa ra nhận định → Quy luật chung
- Phân loại:
  - Implicit: Kinh nghiệm cá nhân rút ra. Một thứ mới có trân trị (có thể đúng tại thời điểm này, nhưng sai ở thời điểm khác). Không thể chỉ dạy người khác.
  - Explicit: Kiến thức về đạo hàm. Có thể chỉ dạy người khác.
Wisdom: Sự từng trải, rút trích từ kinh nghiệm.

Classification: Phân lớp đa lớp: Dữ liệu được xếp vào 1 lớp. Phân lớp đa nhãn: Một dữ liệu được xếp nhiều nhãn (lớp).

Thuật toán có thuật toán có tham số (parametric), phi tham số (non-parametric) và bán tham số (semi-parametric)?*

Thuật toán có tham số (Parametric algorithms) Định nghĩa: Giả định trước dạng hàm mô tả mối quan hệ giữa biến đầu vào $x$ và đầu ra $y$ , chỉ cần ước lượng một số hữu hạn tham số để mô tả mô hình.

Đặc điểm:

Có số lượng tham số cố định (không phụ thuộc vào kích thước dữ liệu).

Huấn luyện = ước lượng tham số này.

Giả định mạnh → nếu giả định đúng, học rất hiệu quả; nếu sai, dễ bị bias cao.

Ví dụ:

Hồi quy tuyến tính: → $y = w^{⊤} x + b$ chỉ cần tìm $w, b$ .

Hồi quy logistic, Naive Bayes, Perceptron.

Ưu điểm:

Ít dữ liệu vẫn hoạt động.

Tính toán nhanh, dễ diễn giải.

Nhược điểm:

Kém linh hoạt nếu quan hệ thực tế không đúng với dạng hàm giả định.

Thuật toán phi tham số (Non-parametric algorithms)

Định nghĩa: Không giả định trước dạng hàm cụ thể giữa $x$ và $y$ . Số “tham số” hiệu dụng có thể tăng theo dữ liệu.

Đặc điểm:

Linh hoạt cao, có thể học bất kỳ dạng quan hệ nào (nếu đủ dữ liệu).

Thường lưu trữ nhiều thông tin từ dữ liệu huấn luyện.

Cần nhiều dữ liệu để tránh overfitting.

Ví dụ:

k-Nearest Neighbors (k-NN).

Decision Trees.

Gaussian Processes.

Ưu điểm:

Không bị giới hạn bởi giả định hàm ban đầu.

Khả năng mô hình hóa quan hệ phức tạp.

Nhược điểm:

Chậm khi dự đoán (vì phải “tra cứu” dữ liệu).

Cần nhiều dữ liệu và bộ nhớ.

Thuật toán bán tham số (Semi-parametric algorithms)

Định nghĩa: Kết hợp cả phần tham số (có dạng hàm giả định) và phi tham số (không giả định).

Đặc điểm:

Một phần của mô hình có số tham số cố định, phần còn lại linh hoạt theo dữ liệu.

Giảm bias so với parametric và giảm variance so với non-parametric.

Ví dụ:

Generalized Additive Models (GAMs): kết hợp tuyến tính ở một số biến, phi tuyến ở biến khác.

Support Vector Machines (SVM): tham số là trọng số vector $w$ , nhưng hàm kernel phi tham số.

Cox Proportional Hazards Model trong phân tích sống sót.

Ưu điểm:

Cân bằng giữa khả năng diễn giải và tính linh hoạt.

Nhược điểm:

Thiết kế mô hình phức tạp hơn.

An Hoai Thai's Notes

Trong bài này

1. Giới thiệu môn Máy học

Tham khảo

Hình thức lớp học

Báo cáo cuối kì

1. Giới thiệu về máy học

Biểu Đồ

Bảng Nội Dung

Liên Kết Ngược