1. Motivation

Tại sao phải cần Chuẩn hóa văn bản:

Các kỹ thuật Chuẩn hóa văn bản (Text Normalization):

  • Setence Segmentation
  • Tokenization
  • Lemmatization: Đưa về dạng từ gốc (Từ Adj → Verb)
  • Stemming: Cắt hậu tố khỏi từ (Ít được dùng hơn Lemmatization
  • Lọc Stop Word
  • Word Correction: Sửa lỗi chính tả.

Quá trình chuẩn hóa có thể khác nhau tùy theo bài toán:

  • Text Generation (bài toán sinh từ) → Giữ nhiều token nhất có thể, đưa các văn bản về cùng format. (Viết hoa đầu câu hoặc sao đó…)
  • Sentiment Classification (Bài toán phân loại cảm xúc): Loại bỏ stop word để tập trung vào ngữ cảnh, cảm xúc của bài.

2. Lemmatization

→ Lemmatization là việc xác định từ gốc của các từ image 34.png Ưu điểm:

  • Tìm kiếm dựa trên ngữ nghĩa tốt hơn: Vd: Tìm từ Sing → sẽ thu đc cả Sang và Sung
  • Phân loại tốt hơn: Chuẩn hóa về gốc giúp thu hẹp không gian phân tích và tạo độ chính xác cao hơn. Nhược điểm:
  • Đánh mất thông tin ngữ pháp: Có thể làm giảm độ chính xác trong một vài bài toán nhất định. Các thư viện hỗ trợ Lemmatization:
  • Natural Language Toolkit:
  • spaCy
  • TextBlob