So sánh khám phá:
Thực hành chạy thử các mô hình, các cách embed dữ liệu và so sánh xem độ chính xác có tăng lên không. → quá trình khám phá.
Dùng IMDB Dataset
Metric Validation: Accuracy
Ví dụ:
| No Pretrained Embeddings | Pretrained Embedding Glove | Train pre-trained Embedding FastText (Word2Vec) | Pre-trained Embedding Word2Vec |
1. Motivation
Vấn đề của CBOW: CBOW sẽ dùng hàm Softmax để tính xác suất → Từ đó khi bộ từ điển to ra thì tốc độ tính toán sẽ chậm đi.
Giải quyết: Skip Gram
2. Skip Gram
- Sinh cặp token đi liền nhau và đánh nhãn 1 (Positive) Ví dụ: Window size = 1: “Tôi là người việt nam”