Ch06. Text Classification and Naive Bayes

Naive Bayes

1. Ý tưởng cơ bản

Naive Bayes dựa trên định lý Bayes:

$P (C ∣ X) = \frac{P ( X ∣ C ) \cdot P ( C )}{P ( X )}$

Trong đó:

$C$ : lớp (ví dụ: spam hoặc not spam)
$X$ : tập đặc trưng (các từ trong văn bản)
$P (C ∣ X)$ : xác suất văn bản thuộc lớp $C$ khi biết các từ $X$
$P (X ∣ C)$ : xác suất xuất hiện các từ $X$ khi văn bản thuộc lớp $C$
$P (C)$ : xác suất tiên nghiệm của lớp $C$
$P (X)$ : xác suất của các từ (không cần tính trực tiếp vì giống nhau giữa các lớp)

2. Giả định “Naive” (ngây thơ)

Giả sử các đặc trưng (từ) là độc lập với nhau khi biết lớp.
→ Công thức trở thành: $P (C ∣ X) \propto P (C) \times \prod_{i = 1}^{n} P (x_{i} ∣ C)$

Ví dụ: nếu một email có các từ [“free”, “win”, “money”], ta tính: $P (spam ∣ X) \propto P (spam) \cdot P (free ∣ spam) \cdot P (win ∣ spam) \cdot P (money ∣ spam)$

3. Quy trình huấn luyện

Tách văn bản → tokenization
Đếm tần suất xuất hiện của từ trong từng lớp
Tính xác suất có điều kiện: $P (x_{i} ∣ C) = \frac{s o ˆ ˊ l a ˆ ˋ n từ x _{i} xu a ˆ ˊ t hiện trong lớp C + 1}{tổng s o ˆ ˊ từ trong lớp C + ∣ V ∣}$

(dùng Laplace smoothing để tránh chia cho 0)
Tính xác suất tiên nghiệm $P (C)$ : $P (C) = \frac{s o ˆ ˊ v a ˘ n bản thuộc lớp C}{tổng s o ˆ ˊ v a ˘ n bản}$

Laplace smoothing

Giả sử trong bài toán phân loại email:

Lớp	Từ “free”	Từ “meeting”	Tổng số từ
Spam	10	0	100
Ham	2	5	120

Khi tính: $P (meeting ∣ spam) = \frac{0}{100} = 0$

→ Nếu văn bản mới có từ “meeting”, thì toàn bộ xác suất

$P (spam ∣ X) \propto P (meeting ∣ spam) \times ...$

Sẽ trở thành 0, làm sai lệch kết quả.

Giải pháp: Laplace Smoothing Thay vì dùng công thức:

$P (w_{i} ∣ C) = \frac{s o ˆ ˊ l a ˆ ˋ n w _{i} xu a ˆ ˊ t hiện trong lớp C}{tổng s o ˆ ˊ từ trong lớp C}$

Ta thêm 1 vào tử và |V| (kích thước từ vựng) vào mẫu:

$P (w_{i} ∣ C) = \frac{count ( w _{i} , C ) + 1}{Tổng s o ˆ ˊ từ trong lớp C + ∣ V ∣}$

Ý nghĩa của việc cộng “1”

Mỗi từ trong từ điển được giả định xuất hiện ít nhất 1 lần trong mỗi lớp.
Điều này giúp mọi từ đều có xác suất nhỏ > 0, không bao giờ bằng 0.

Ví dụ minh họa Với bảng trên, giả sử từ điển có |V| = 1000 từ: $P (meeting ∣ spam) = \frac{0 + 1}{100 + 1000} = \frac{1}{1100} \approx 0.0009$ $P (free ∣ spam) = \frac{10 + 1}{100 + 1000} = \frac{11}{1100} \approx 0.01$ → Nhờ smoothing, từ “meeting” không bị xác suất 0, giúp mô hình vẫn đánh giá hợp lý.

Biến thể: Add-α Smoothing (Generalized) Laplace là trường hợp đặc biệt của Add-α smoothing, trong đó α = 1.
Công thức tổng quát: $P (w_{i} ∣ C) = \frac{count ( w _{i} , C ) + α}{Tổng s o ˆ ˊ từ trong lớp C + α ∣ V ∣}$

Khi:

α = 1 → Laplace smoothing
0 < α < 1 → thường được dùng trong thực tế để giảm “làm mượt” quá mức

4. Phân loại văn bản mới

Với một văn bản mới $X$ :
→ Tính $P (C ∣ X)$ cho từng lớp
→ Chọn lớp có xác suất lớn nhất

5. Các biến thể của Naive Bayes

Biến thể	Đặc điểm	Ứng dụng
Multinomial NB	Dùng tần suất từ (bag-of-words)	Phổ biến nhất cho text classification
Bernoulli NB	Dùng giá trị nhị phân (từ có xuất hiện hay không)	Email spam / sentiment
Gaussian NB	Dùng cho dữ liệu liên tục	Không phổ biến trong NLP

6. Ví dụ minh họa (giản lược)

Văn bản	Nhãn
”free money now”	spam
”win money today”	spam
”meeting schedule today”	ham

Nếu có email "free schedule today", ta tính: $P (spam ∣ X) \propto P (spam) \cdot P (free ∣ spam) \cdot P (schedule ∣ spam) \cdot P (today ∣ spam)$ và tương tự cho ham, sau đó chọn xác suất cao hơn.

7. Ưu và nhược điểm

Ưu điểm

Đơn giản, nhanh, hiệu quả với dữ liệu lớn
Không cần nhiều tài nguyên
Hoạt động tốt với dữ liệu rời rạc (bag-of-words)

Nhược điểm

Giả định độc lập từ → không thực tế
Không xét đến thứ tự từ
Dễ bị ảnh hưởng bởi từ hiếm gặp

Bài tập về nhà

Xây dựng cơ sở dữ liệu tiếng việt

An Hoai Thai's Notes

Trong bài này