1. Motivation
Tại sao phải cần Chuẩn hóa văn bản:
Các kỹ thuật Chuẩn hóa văn bản (Text Normalization):
- Setence Segmentation
- Tokenization
- Lemmatization: Đưa về dạng từ gốc (Từ Adj → Verb)
- Stemming: Cắt hậu tố khỏi từ (Ít được dùng hơn Lemmatization
- Lọc Stop Word
- Word Correction: Sửa lỗi chính tả.
Quá trình chuẩn hóa có thể khác nhau tùy theo bài toán:
- Text Generation (bài toán sinh từ) → Giữ nhiều token nhất có thể, đưa các văn bản về cùng format. (Viết hoa đầu câu hoặc sao đó…)
- Sentiment Classification (Bài toán phân loại cảm xúc): Loại bỏ stop word để tập trung vào ngữ cảnh, cảm xúc của bài.
2. Lemmatization
→ Lemmatization là việc xác định từ gốc của các từ
Ưu điểm:
- Tìm kiếm dựa trên ngữ nghĩa tốt hơn: Vd: Tìm từ Sing → sẽ thu đc cả Sang và Sung
- Phân loại tốt hơn: Chuẩn hóa về gốc giúp thu hẹp không gian phân tích và tạo độ chính xác cao hơn. Nhược điểm:
- Đánh mất thông tin ngữ pháp: Có thể làm giảm độ chính xác trong một vài bài toán nhất định. Các thư viện hỗ trợ Lemmatization:
- Natural Language Toolkit:
- spaCy
- TextBlob