§ vn-bench · 2026tổng hợp công khai · cập nhật 2026-04

Mô hình ngôn ngữ Việt — bảng xếp hạng.

Nơi tổng hợp các mô hình lớn được đánh giá trên tiếng Việt. Số liệu lấy trực tiếp từ leaderboard công khai. Sẽ mở rộng với các tác vụ ứng dụng do NRL biên soạn.

Hiện tại VN-Bench tổng hợp dữ liệu từ VMLU. Phiên bản tiếp theo sẽ bổ sung tác vụ thực tế: trích xuất hợp đồng, bóc tách công văn, OCR có dấu, chuyển ngữ Anh–Việt.

§ 01 · phương pháp

Số liệu lấy ở đâu?

VN-Bench v0 không tự chạy đánh giá. Trang này tổng hợp số liệu công khai từ các nguồn được uy tín trong cộng đồng nghiên cứu tiếng Việt — chủ yếu là leaderboard VMLU do Zalo AI và JAIST duy trì, kết hợp các kết quả công bố trong chuỗi VLSP và các bài báo học thuật.

Mỗi dòng dưới đây có đường dẫn tới nguồn gốc. Số liệu cập nhật ngày 2026-04-25. Khi mô hình mới xuất hiện, chúng tôi cập nhật trong vòng vài tuần.

VN-Bench v1 (đang phát triển cùng bộ công cụ Nôm) sẽ bổ sung các tác vụ ứng dụng mà VMLU chưa bao phủ: trích xuất tài liệu, hỏi đáp pháp lý, OCR có dấu, chuyển ngữ. Mục tiêu là một thước đo gần với công việc thực tế của các đội phát triển AI tại Việt Nam.

§ 02 · bảng xếp hạng vmlu

Bảng VMLU — top 15 mô hình.

VMLU là bộ đánh giá đa nhiệm gồm 10.880 câu hỏi trắc nghiệm, trải đều 58 môn học (STEM, khoa học xã hội, nhân văn, kiến thức chung). Đánh giá zero-shot. Hai bảng: mô hình huấn luyện từ đầu, và mô hình tinh chỉnh.

Số liệu lấy từVMLU Leaderboard (Zalo AI / JAIST)· Ảnh chụp: 2026-04-25

Mọi điểm số dưới đây thuộc về tác giả của bộ đánh giá VMLU. Trang này chỉ tổng hợp và liên kết về nguồn gốc.

── Fine-tuned ── 10 models
HạngMô hìnhTổ chứcCơ sởĐiểm trung bìnhNgạch
1axis-sovereignInternational AXIS85.75tinh chỉnh
2V-LLM v1VinSmart Future85.11tinh chỉnh
3MISA-AI-1.0MISA JSCQwen381.26tinh chỉnh
4Vi-Sovereign-MediumNLP-CORE-LabQwen3-32B80.57tinh chỉnh
5VNPTAI.IO-Medium-R1.2VNPT AI79.61tinh chỉnh
6BnK-AI-Medium-v2.1BnK Solution78.84tinh chỉnh
7Cake-MochiBeFinancialQwen3-32B77.64tinh chỉnh
8VNPTAI.IO-Medium-R1VNPT AI77.43tinh chỉnh
9MISA-Llama3-v1.1MISA JSCLlama-376.87tinh chỉnh
10BnK-AI-Medium-v2BnK Solution76.66tinh chỉnh
── From-scratch ── 5 models
HạngMô hìnhTổ chứcCơ sởĐiểm trung bìnhNgạch
QwQ-32BAlibaba Cloudhuấn luyện từ đầu76.13từ đầu
Qwen2.5-72B-Instruct-AWQAlibaba Cloudhuấn luyện từ đầu69.17từ đầu
Llama-3-70BMetahuấn luyện từ đầu66.44từ đầu
KiLM-13b-v24.7.1Kiki AI / Zalohuấn luyện từ đầu66.07từ đầu
GPT-4OpenAIhuấn luyện từ đầu65.53từ đầu

Cột hạng chỉ áp dụng trong cùng một ngạch. Mô hình tinh chỉnh thường có điểm cao hơn vì được điều chỉnh theo định dạng VMLU. Để so sánh năng lực gốc của mô hình, đối chiếu trong cột 'huấn luyện từ đầu'.

Nguồn: VMLU Leaderboard (cập nhật 2026-04)
§ 03 · các bộ đánh giá khác

Không chỉ VMLU.

VMLU thiên về kiến thức học thuật. Cộng đồng tiếng Việt còn có nhiều bộ đánh giá khác cho các tác vụ khác nhau. Chúng tôi liệt kê để bạn chọn được bộ đánh giá phù hợp với nhu cầu sử dụng.

  • VLSP — Vietnamese Language and Speech Processing

    VLSP Association

    Hội nghị thường niên, có nhiều tác vụ: LLM, ASR, dịch máy, semantic parsing, hỏi đáp pháp lý.

    visit →
  • ViLLM-Eval

    Học thuật (arXiv 2404.11086)

    Bộ đánh giá tổng hợp: kiến thức chung, đọc hiểu, suy luận, hội thoại.

    visit →
  • VLegal-Bench

    Học thuật (arXiv 2512.14554)

    Suy luận pháp lý: dự đoán điều luật, tóm tắt, trích dẫn.

    visit →
  • VLSP 2025 LegalSLM

    VLSP Association

    Mô hình ngôn ngữ nhỏ chuyên biệt cho lĩnh vực pháp lý tiếng Việt.

    visit →
  • VLSP 2025 MLQA-TSR

    VLSP Association

    Hỏi đáp pháp lý đa phương thức về biển báo giao thông.

    visit →
§ 04 · vn-bench v1 · do nrl đóng góp

Tác vụ ứng dụng — đang phát triển.

VMLU đo kiến thức học thuật. VN-Bench v1 đo công việc thực tế. Sau đây là các tác vụ chúng tôi đang biên soạn cùng cộng đồng. Mở để gửi mô hình sau khi v1 phát hành.

trích xuấtđang phát triển

Trích xuất hợp đồng

Cho một hợp đồng PDF, trích xuất các trường: số hợp đồng, ngày ký, các bên, tổng giá trị, điều khoản phạt. Đo bằng F1 trên độ chính xác trường.

bóc táchđang phát triển

Bóc tách công văn

Số công văn, ngày ban hành, đơn vị phát hành, nội dung chính. Đo bằng exact-match.

ocrđang phát triển

OCR ảnh scan → JSON

Tài liệu scan tiếng Việt có dấu → cấu trúc JSON. Đo bằng độ chính xác ký tự và độ chính xác trường.

ngữ điệuđang phát triển

Bảo toàn dấu thanh

Tác vụ sinh văn bản tiếng Việt — đo độ chính xác dấu thanh trên các đoạn dài.

chuyển ngữđang phát triển

Chuyển ngữ Anh–Việt

Hội thoại tự nhiên xen kẽ Anh–Việt — kiểm tra mô hình hiểu và phản hồi đúng ngữ cảnh.

pháp lýđối tác

Hỏi đáp pháp lý

Mượn từ VLegal-Bench — không phát triển song song mà liên kết để cộng đồng dùng chung.

§ 05 · gửi mô hình

Bạn đang phát triển mô hình tiếng Việt?

Khi VN-Bench v1 phát hành, chúng tôi sẽ mở cổng gửi mô hình. Trong lúc chờ, bạn có thể đăng ký thông báo, đề xuất tác vụ, hoặc đóng góp dữ liệu đánh giá.

§ 06 · trích dẫn nguồn

Toàn bộ nguồn được sử dụng.

Trang này không tự chạy đánh giá. Mọi số liệu đến từ các nguồn công khai dưới đây. Các tác giả của những bộ đánh giá giữ toàn bộ quyền tác giả với điểm số mô hình. Nếu bạn là tác giả và muốn yêu cầu chỉnh sửa hoặc gỡ bỏ, vui lòng liên hệ [email protected].

  1. [1]
    VMLU: A Benchmark for Vietnamese Multitask Language UnderstandingZalo AI Research · Japan Advanced Institute of Science and Technology (JAIST)Leaderboard công khai · cập nhật liên tục · https://vmlu.ai/leaderboard
  2. [2]
    VMLU Benchmarks: A comprehensive benchmark toolkit for Vietnamese LLMsTác giả Zalo AI / JAISTACL 2025 · https://aclanthology.org/2025.acl-long.563/
  3. [3]
    VLSP — Vietnamese Language and Speech ProcessingVLSP AssociationHội nghị thường niên · https://vlsp.org.vn
  4. [4]
    ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language ModelsarXiv 2404.11086 · https://arxiv.org/abs/2404.11086
  5. [5]
    VLegal-Bench: Cognitively Grounded Benchmark for Vietnamese Legal ReasoningarXiv 2512.14554 · https://arxiv.org/abs/2512.14554
  6. [6]
    VLSP 2025 Challenge on Vietnamese Legal Small Language Models (LegalSLM)VLSP AssociationVLSP 2025 · https://vlsp.org.vn/vlsp2025/eval/legalSLM
  7. [7]
    VLSP 2025 MLQA-TSR: Vietnamese Multimodal Legal Question Answering on Traffic Sign RegulationVLSP 2025 ParticipantsarXiv 2510.20381 · https://arxiv.org/abs/2510.20381
  8. [8]
    VinaLLaMA: LLaMA-based Vietnamese Foundation ModelVilmarXiv 2312.11011 · https://arxiv.org/abs/2312.11011
  9. [9]
    PhoGPT: Generative Pre-training for VietnameseVinAI ResearcharXiv 2311.02945 · https://arxiv.org/abs/2311.02945