Giới thiệu cuộc thi
Đọc qua bài sau AIO Zalo Chalenge training
Đọc qua các repo sau, theo giới thiệu thì trong cuộc thi AI City 2024 có đề tương tự track 2 Zalo ở đây nên có thể tham khảo để áp dụng:
- https://github.com/AIVIETNAMResearch/AI-City-2024-Track2
- https://github.com/alibaba/AICITY2024_Track2_AliOpenTrek_CityLLaVA
- https://github.com/UCF-SST-Lab/AICity-2024-Track2-CVPRW
- https://github.com/quangminhdinh/TrafficVLM
- https://github.com/ToTuanAn/AICityChallenge2024_Track2
Những gì đã làm được
Setup dataset: Prepare dataset
Mọi người cần đọc qua để tải dataset
Drive làm việc của aht: Drive
Tham khảo
Pipeline
┌──────────────────────────┐
│ Raw Video │
└────────────┬─────────────┘
│
▼
┌──────────────────────────────┐
│ 1. Keyframe Extraction │
│ (support_frames, scene cut) │
└────────────┬─────────────────┘
│
▼
┌────────────────────────────────┐
│ 2. Visual Understanding Module │
│ (Object / Sign / Lane / OCR) │
└────────────┬───────────────────┘
│
▼
┌──────────────────────────────────────────┐
│ 3. Multimodal Reasoning (Vintern-1B) │
│ Input: [<image> + question + choices] │
│ Output: text answer │
└────────────┬────────────────────────────┘
│
▼
┌──────────────────────────────────────────────┐
│ 4. Post-processing / Ensemble (voting) │
│ │
│ │
└──────────────────────────────────────────────┘
│
▼
┌──────────────────────────────┐
│ 6. Submission (CSV: id, ans) │
└──────────────────────────────┘
- Trích xuất keyframes
- Mục tiêu: Trích xuất thông tin hình ảnh phục vụ reasoning. Thay vì train cả video → vài frame quan trọng (biển báo, giao lộ, hướng rẽ, đèn tín hiệu,…).
Gợi ý:
| Task | Mô hình đề xuất | Output |
|---|---|---|
| Object Detection | YOLOv8 / Grounding-DINO | bounding boxes |
| Traffic Sign Detection | Fine-tune YOLOv8 trên tập biển báo Việt Nam | loại biển báo |
| OCR | PaddleOCR / TrOCR | text biển báo |
| Scene Understanding | CLIP / DINOv2 | embedding toàn cảnh |
| Các output này giúp Multimodal Reasoning có ngữ cảnh phong phú hơn hoặc làm input riêng cho ensemble. |
- Multimodal Reasoning
Các mô hình gợi ý:
Task
| Thành viên | Nhiệm vụ | Mô tả | Deadline |
|---|---|---|---|
| Vy Lê & Đức Phát | VLM fine-tune | Thử các Multimodal Reasoning. Có thể mở rộng ra các model xử lý toàn bộ video ()nếu được) | 16/11/2025 (Chủ nhật) |
| Duy Tân & Dương | Trích xuất keyframe | Tìm hiểu các cách trích keyframe | 16/11/2025 (Thứ Bảy) |
| AHT | VLM fine-tune | Chuẩn bị pipeline. Chạy LoRA Vintern. Thiết kế data, Modular reasoning | 16/11/2025 (Chủ nhật) |
Giải tay Public test
| Thành viên | Range câu hỏi | Deadline |
|---|---|---|
| AHT | 1 → 81 | 16/11/2025 |
| Dương | 82 → 163 | 16/11/2025 |
| Phát | 164 → 245 | 16/11/2025 |
| Tân | 246 → 327 | 16/11/2025 |
| Vy | 328 → hết | 16/11/2025 |
Lý do:
- Tạo validate set, tăng cường dữ liệu.
- Thu được insight để thiết kế pipeline.
- 😀 Phông bạt