Giới thiệu cuộc thi

Đọc qua bài sau AIO Zalo Chalenge training

Đọc qua các repo sau, theo giới thiệu thì trong cuộc thi AI City 2024 có đề tương tự track 2 Zalo ở đây nên có thể tham khảo để áp dụng:

Những gì đã làm được

Setup dataset: Prepare dataset

Mọi người cần đọc qua để tải dataset

Drive làm việc của aht: Drive

Tham khảo

Pipeline

              ┌──────────────────────────┐
              │        Raw Video         │
              └────────────┬─────────────┘
                           │
                           ▼
           ┌──────────────────────────────┐
           │ 1. Keyframe Extraction       │
           │  (support_frames, scene cut) │
           └────────────┬─────────────────┘
                           │
                           ▼
          ┌────────────────────────────────┐
          │ 2. Visual Understanding Module │
          │   (Object / Sign / Lane / OCR) │
          └────────────┬───────────────────┘
                           │
                           ▼
    ┌──────────────────────────────────────────┐
    │ 3. Multimodal Reasoning (Vintern-1B)     │
    │   Input: [<image> + question + choices]  │
    │   Output: text answer                    │
    └────────────┬────────────────────────────┘
                           │
                           ▼
┌──────────────────────────────────────────────┐
│ 4. Post-processing / Ensemble (voting)       │
│                                              │
│     	 							           │
└──────────────────────────────────────────────┘
                           │
                           ▼
           ┌──────────────────────────────┐
           │ 6. Submission (CSV: id, ans) │
           └──────────────────────────────┘

  1. Trích xuất keyframes
  • Mục tiêu: Trích xuất thông tin hình ảnh phục vụ reasoning. Thay vì train cả video → vài frame quan trọng (biển báo, giao lộ, hướng rẽ, đèn tín hiệu,…).

Gợi ý:

TaskMô hình đề xuấtOutput
Object DetectionYOLOv8 / Grounding-DINObounding boxes
Traffic Sign DetectionFine-tune YOLOv8 trên tập biển báo Việt Namloại biển báo
OCRPaddleOCR / TrOCRtext biển báo
Scene UnderstandingCLIP / DINOv2embedding toàn cảnh
Các output này giúp Multimodal Reasoning có ngữ cảnh phong phú hơn hoặc làm input riêng cho ensemble.
  1. Multimodal Reasoning

Các mô hình gợi ý:


Task

Thành viênNhiệm vụMô tảDeadline
Vy Lê & Đức PhátVLM fine-tuneThử các Multimodal Reasoning. Có thể mở rộng ra các model xử lý toàn bộ video ()nếu được)16/11/2025 (Chủ nhật)
Duy Tân & DươngTrích xuất keyframeTìm hiểu các cách trích keyframe16/11/2025 (Thứ Bảy)
AHTVLM fine-tuneChuẩn bị pipeline. Chạy LoRA Vintern. Thiết kế data, Modular reasoning16/11/2025 (Chủ nhật)

Giải tay Public test

Thành viênRange câu hỏiDeadline
AHT1 → 8116/11/2025
Dương82 → 16316/11/2025
Phát164 → 24516/11/2025
Tân246 → 32716/11/2025
Vy328 → hết16/11/2025

Lý do:

  • Tạo validate set, tăng cường dữ liệu.
  • Thu được insight để thiết kế pipeline.
  • 😀 Phông bạt