So sánh khám phá:

Thực hành chạy thử các mô hình, các cách embed dữ liệu và so sánh xem độ chính xác có tăng lên không. → quá trình khám phá. Dùng IMDB Dataset
Metric Validation: Accuracy Ví dụ:

No Pretrained EmbeddingsPretrained Embedding GloveTrain pre-trained Embedding FastText (Word2Vec)Pre-trained Embedding Word2Vec

1. Motivation

Vấn đề của CBOW: CBOW sẽ dùng hàm Softmax để tính xác suất → Từ đó khi bộ từ điển to ra thì tốc độ tính toán sẽ chậm đi.

Giải quyết: Skip Gram

2. Skip Gram

  1. Sinh cặp token đi liền nhau và đánh nhãn 1 (Positive) Ví dụ: Window size = 1: “Tôi là người việt nam”