TênThời gianLoại modelMetricsNoteLink
Ichigo Whisper2024Speech tokenizer
VietASR2023Modelhttps://github.com/dangvansam/viet-asr.git
ZipFormer 30 M RNNT2025Modelhttps://huggingface.co/hynt/Zipformer-30M-RNNT-6000h?fbclid=IwY2xjawPUHtlleHRuA2FlbQIxMABicmlkETE3djhtYmw5YjhjVm9Ua2tsc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHjg2oI-BOZl7rj2_pV-HvCEUvxUtG4DoP3M6RRiPoRSlcW38FpYtE-C-uy5O_aem_tJRZd_GWWg8_dp37vh_O6g
PhoWhisperModelhttps://arxiv.org/pdf/2406.02555
ViASR: A Novel Benchmark Dataset and Methods for Vietnamese Automatic Speech Recognition2023https://aclanthology.org/2023.paclic-1.38.pdf
Chunkformer ctc large vieỞ đây có link các dataset dùng để train nên rất tốthttps://huggingface.co/khanhld/chunkformer-ctc-large-vie
VLSP 2025 ASR-SER From Data Exploration to Model Training: A Strategic Approachhttps://aclanthology.org/2025.vlsp-1.5.pdf

Ichigo whisper

Ichigo Whisper là một speech tokenizer mã nguồn mở, gọn nhẹ (22 triệu tham số) dành cho mô hình Whisper-medium, được thiết kế nhằm nâng cao hiệu năng trên các ngôn ngữ đa ngữ, đặc biệt là các ngôn ngữ tài nguyên thấp, trong khi vẫn giữ ảnh hưởng tối thiểu đến khả năng tiếng Anh gốc của mô hình.

Không giống các mô hình xuất ra embedding liên tục (continuous embeddings), Ichigo Whisper nén tín hiệu giọng nói thành các token rời rạc (discrete tokens), giúp tương thích tốt hơn với các mô hình ngôn ngữ lớn (LLM) cho các tác vụ hiểu tiếng nói trực tiếp.

Tiêu chíWhisperSpeech Tokenizer
OutputVăn bản (text)Chuỗi token rời rạc
Dạng biểu diễnChữ (string)Integer token IDs
Tính liên tụcKhông áp dụngDiscrete
Phù hợp cho LLMGián tiếp (qua text)Trực tiếp

Speech tokenizer này được huấn luyện trên khoảng ~400 giờ dữ liệu tiếng Anh~1000 giờ dữ liệu tiếng Việt.

Ichigo Whisper là một thành phần cốt lõi trong hệ sinh thái Ichigo v0.5.

Thông tin mô hình

  • Đơn vị phát triển: Homebrew Research

  • Kiến trúc mô hình: WhisperVQ

  • Loại mô hình: Bộ lượng tử hóa (Quantizer) cho Whisper

  • Ngôn ngữ hỗ trợ: Tiếng Anh, Tiếng Việt

  • Giấy phép: CC-BY-NC-SA-4.0

Thông số huấn luyện (Training Specs) Cấu hình phần cứng

Thành phầnChi tiết
GPU8 × NVIDIA A6000

Thời gian huấn luyện

Giai đoạnThời lượng
Phase 175 giờ (50 epoch)
Phase 229 giờ (20 epoch)
Tổng cộng104 giờ

Phase 1: Có sử dụng KL Loss

Tham sốGiá trị
Phương pháp khởi tạoEmbedding WhisperVQ-Large-v3 (7 ngôn ngữ), có nhân bản
Số epoch50
Global Batch Size336
Learning Rate1e-3
SchedulerLinear warm-up + Cosine decay
OptimizerAdamW
Warmup Ratio500
Weight Decay0.001
Độ dài audio tối đa30 giây (audio được padding)

Phase 2: Không sử dụng KL Loss

Tham sốGiá trị
Phương pháp khởi tạoCheckpoint từ Phase 1
Số epoch20
Global Batch Size336
Learning Rate1e-3
SchedulerLinear warm-up + Cosine decay
OptimizerAdamW
Warmup Ratio500
Weight Decay0.001
Độ dài audio tối đa30 giây (audio được padding)
Đánh giá (Evaluation)

Tiếng Việt

Tên mô hìnhKích thước codebookDataset testSố mẫu testWER
IchigoWhisper2561viVoice10,00011.68
Whisper MediumviVoice10,00018.30
Tiếng Anh
Tên mô hìnhKích thước codebookDataset testSố mẫu testWER
IchigoWhisper2561LibriTTS-R4,68911.89
Whisper MediumLibriTTS-R4,68913.06