1. Gradient Boost For Regression

Cho bài toán sau: Bảng dữ liệu minh họa cách áp dụng Gradient Boosting trong bài toán hồi quy (regression). Ở đây, ta có tập input gồm các đặc trưng: Height, Favorite Color, GenderoutputWeight.

HeightFavorite ColorGenderWeight
1.6BlueMale88
1.6GreenFemale76
1.5BlueFemale56
1.8RedMale73
1.5GreenMale77
1.4BlueFemale57
Trong bài toán này, mô hình sẽ dự đoán cân nặng (Weight) dựa trên chiều cao, màu sắc yêu thích và giới tính. Các đặc trưng này có thể thuộc dạng số (Height), dạng phân loại (Favorite Color, Gender), do đó cần mã hóa (encoding) trước khi huấn luyện.

Gradient Boost sẽ kết hợp nhiều cây quyết định hồi quy nhỏ (weak learners) thành một mô hình mạnh, liên tục giảm sai số bằng cách học trên phần residuals (phần chênh lệch giữa dự đoán và giá trị thật).


Step 1: Build first tree

Ở bước đầu tiên của Gradient Boost Regression, mô hình sẽ khởi tạo bằng cách tính giá trị trung bình (average) của biến mục tiêu (target variable – ở đây là Weight).

Tính trung bình

Tổng cân nặng:

Số mẫu:

Trung bình:

Kết quả này chính là nút gốc (root node) của cây đầu tiên trong Gradient Boosting.


Vì sao lại lấy trung bình?

Trong hồi quy, mô hình ban đầu chưa có bất kỳ đặc trưng nào để học, nên cách tốt nhất để khởi tạo dự đoán là dùng giá trị trung bình của toàn bộ tập dữ liệu. Trung bình sẽ giúp giảm tổng sai số bình phương (MSE) so với nếu chọn ngẫu nhiên một giá trị nào khác.


Step 2 – Xây dựng cây thứ hai

Sau khi khởi tạo bằng giá trị trung bình 71.17 ở cây đầu tiên, Gradient Boosting sẽ bắt đầu cải thiện dự đoán bằng cách xây dựng cây thứ hai.

Nguyên tắc thực hiện

  1. Tính residuals (sai số còn lại):
    Residual = Giá trị thực – Giá trị dự đoán ban đầu.
    Với dự đoán ban đầu = 71.17 cho tất cả các mẫu:

    HeightFavorite ColorGenderWeightResidual = Weight – 71.17
    1.6BlueMale88+16.83
    1.6GreenFemale76+4.83
    1.5BlueFemale56-15.17
    1.8RedMale73+1.83
    1.5GreenMale77+5.83
    1.4BlueFemale57-14.17
  2. Huấn luyện cây thứ hai trên các residuals này.

    • Thay vì dự đoán trực tiếp Weight, cây sẽ cố gắng dự đoán residual.

    • Điều này giúp mô hình học được những gì trung bình chưa thể giải thích.

  3. Kết hợp dự đoán:

    • Dự đoán cuối cùng sau bước này = Dự đoán ban đầu + Learning rate × Dự đoán từ cây thứ hai.

Ý nghĩa trực quan

  • Cây đầu tiên chỉ “đoán bừa thông minh” bằng trung bình.

  • Cây thứ hai bắt đầu học các mối quan hệ phức tạp hơn từ đặc trưng (Height, Favorite Color, Gender) để sửa lỗi cho cây đầu tiên.