§ vn-bench · 2026tổng hợp công khai · cập nhật 2026-04

Mô hình ngôn ngữ Việt — bảng xếp hạng.

Nơi tổng hợp các mô hình lớn được đánh giá trên tiếng Việt. Số liệu lấy trực tiếp từ leaderboard công khai. Sẽ mở rộng với các tác vụ ứng dụng do NRL biên soạn.

Hiện tại VN-Bench tổng hợp dữ liệu từ VMLU. Phiên bản tiếp theo sẽ bổ sung tác vụ thực tế: trích xuất hợp đồng, bóc tách công văn, OCR có dấu, chuyển ngữ Anh–Việt.

xem trên vmlu.ai →đề xuất mô hình

§ 01 · phương pháp

Số liệu lấy ở đâu?

VN-Bench v0 không tự chạy đánh giá. Trang này tổng hợp số liệu công khai từ các nguồn được uy tín trong cộng đồng nghiên cứu tiếng Việt — chủ yếu là leaderboard VMLU do Zalo AI và JAIST duy trì, kết hợp các kết quả công bố trong chuỗi VLSP và các bài báo học thuật.

Mỗi dòng dưới đây có đường dẫn tới nguồn gốc. Số liệu cập nhật ngày 2026-04-25. Khi mô hình mới xuất hiện, chúng tôi cập nhật trong vòng vài tuần.

VN-Bench v1 (đang phát triển cùng bộ công cụ Nôm) sẽ bổ sung các tác vụ ứng dụng mà VMLU chưa bao phủ: trích xuất tài liệu, hỏi đáp pháp lý, OCR có dấu, chuyển ngữ. Mục tiêu là một thước đo gần với công việc thực tế của các đội phát triển AI tại Việt Nam.

§ 02 · bảng xếp hạng vmlu

Bảng VMLU — top 15 mô hình.

VMLU là bộ đánh giá đa nhiệm gồm 10.880 câu hỏi trắc nghiệm, trải đều 58 môn học (STEM, khoa học xã hội, nhân văn, kiến thức chung). Đánh giá zero-shot. Hai bảng: mô hình huấn luyện từ đầu, và mô hình tinh chỉnh.

Số liệu lấy từVMLU Leaderboard (Zalo AI / JAIST) ↗· Ảnh chụp: 2026-04-25

Mọi điểm số dưới đây thuộc về tác giả của bộ đánh giá VMLU. Trang này chỉ tổng hợp và liên kết về nguồn gốc.

── Fine-tuned ── 10 models

Hạng	Mô hình	Tổ chức	Cơ sở	Điểm trung bình	Ngạch
1	axis-sovereign	International AXIS	—	85.75	tinh chỉnh
2	V-LLM v1	VinSmart Future	—	85.11	tinh chỉnh
3	MISA-AI-1.0	MISA JSC	Qwen3	81.26	tinh chỉnh
4	Vi-Sovereign-Medium	NLP-CORE-Lab	Qwen3-32B	80.57	tinh chỉnh
5	VNPTAI.IO-Medium-R1.2	VNPT AI	—	79.61	tinh chỉnh
6	BnK-AI-Medium-v2.1	BnK Solution	—	78.84	tinh chỉnh
7	Cake-Mochi	BeFinancial	Qwen3-32B	77.64	tinh chỉnh
8	VNPTAI.IO-Medium-R1	VNPT AI	—	77.43	tinh chỉnh
9	MISA-Llama3-v1.1	MISA JSC	Llama-3	76.87	tinh chỉnh
10	BnK-AI-Medium-v2	BnK Solution	—	76.66	tinh chỉnh

── From-scratch ── 5 models

Hạng	Mô hình	Tổ chức	Cơ sở	Điểm trung bình	Ngạch
—	QwQ-32B	Alibaba Cloud	huấn luyện từ đầu	76.13	từ đầu
—	Qwen2.5-72B-Instruct-AWQ	Alibaba Cloud	huấn luyện từ đầu	69.17	từ đầu
—	Llama-3-70B	Meta	huấn luyện từ đầu	66.44	từ đầu
—	KiLM-13b-v24.7.1	Kiki AI / Zalo	huấn luyện từ đầu	66.07	từ đầu
—	GPT-4	OpenAI	huấn luyện từ đầu	65.53	từ đầu

Cột hạng chỉ áp dụng trong cùng một ngạch. Mô hình tinh chỉnh thường có điểm cao hơn vì được điều chỉnh theo định dạng VMLU. Để so sánh năng lực gốc của mô hình, đối chiếu trong cột 'huấn luyện từ đầu'.

Nguồn: VMLU Leaderboard (cập nhật 2026-04) →

§ 03 · các bộ đánh giá khác

Không chỉ VMLU.

VMLU thiên về kiến thức học thuật. Cộng đồng tiếng Việt còn có nhiều bộ đánh giá khác cho các tác vụ khác nhau. Chúng tôi liệt kê để bạn chọn được bộ đánh giá phù hợp với nhu cầu sử dụng.

VLSP — Vietnamese Language and Speech Processing
VLSP Association
Hội nghị thường niên, có nhiều tác vụ: LLM, ASR, dịch máy, semantic parsing, hỏi đáp pháp lý.
visit →
ViLLM-Eval
Học thuật (arXiv 2404.11086)
Bộ đánh giá tổng hợp: kiến thức chung, đọc hiểu, suy luận, hội thoại.
visit →
VLegal-Bench
Học thuật (arXiv 2512.14554)
Suy luận pháp lý: dự đoán điều luật, tóm tắt, trích dẫn.
visit →
VLSP 2025 LegalSLM
VLSP Association
Mô hình ngôn ngữ nhỏ chuyên biệt cho lĩnh vực pháp lý tiếng Việt.
visit →
VLSP 2025 MLQA-TSR
VLSP Association
Hỏi đáp pháp lý đa phương thức về biển báo giao thông.
visit →

§ 04 · vn-bench v1 · do nrl đóng góp

Tác vụ ứng dụng — đang phát triển.

VMLU đo kiến thức học thuật. VN-Bench v1 đo công việc thực tế. Sau đây là các tác vụ chúng tôi đang biên soạn cùng cộng đồng. Mở để gửi mô hình sau khi v1 phát hành.

trích xuấtđang phát triển

Trích xuất hợp đồng

Cho một hợp đồng PDF, trích xuất các trường: số hợp đồng, ngày ký, các bên, tổng giá trị, điều khoản phạt. Đo bằng F1 trên độ chính xác trường.

bóc táchđang phát triển

Bóc tách công văn

Số công văn, ngày ban hành, đơn vị phát hành, nội dung chính. Đo bằng exact-match.

ocrđang phát triển

OCR ảnh scan → JSON

Tài liệu scan tiếng Việt có dấu → cấu trúc JSON. Đo bằng độ chính xác ký tự và độ chính xác trường.

ngữ điệuđang phát triển

Bảo toàn dấu thanh

Tác vụ sinh văn bản tiếng Việt — đo độ chính xác dấu thanh trên các đoạn dài.

chuyển ngữđang phát triển

Chuyển ngữ Anh–Việt

Hội thoại tự nhiên xen kẽ Anh–Việt — kiểm tra mô hình hiểu và phản hồi đúng ngữ cảnh.

pháp lýđối tác

Hỏi đáp pháp lý

Mượn từ VLegal-Bench — không phát triển song song mà liên kết để cộng đồng dùng chung.

§ 05 · gửi mô hình

Bạn đang phát triển mô hình tiếng Việt?

Khi VN-Bench v1 phát hành, chúng tôi sẽ mở cổng gửi mô hình. Trong lúc chờ, bạn có thể đăng ký thông báo, đề xuất tác vụ, hoặc đóng góp dữ liệu đánh giá.

đăng ký nhận thông báo →[email protected]

§ 06 · trích dẫn nguồn

Toàn bộ nguồn được sử dụng.

Trang này không tự chạy đánh giá. Mọi số liệu đến từ các nguồn công khai dưới đây. Các tác giả của những bộ đánh giá giữ toàn bộ quyền tác giả với điểm số mô hình. Nếu bạn là tác giả và muốn yêu cầu chỉnh sửa hoặc gỡ bỏ, vui lòng liên hệ [email protected].

[1]
VMLU: A Benchmark for Vietnamese Multitask Language UnderstandingZalo AI Research · Japan Advanced Institute of Science and Technology (JAIST)Leaderboard công khai · cập nhật liên tục · https://vmlu.ai/leaderboard
[2]
VMLU Benchmarks: A comprehensive benchmark toolkit for Vietnamese LLMsTác giả Zalo AI / JAISTACL 2025 · https://aclanthology.org/2025.acl-long.563/
[3]
VLSP — Vietnamese Language and Speech ProcessingVLSP AssociationHội nghị thường niên · https://vlsp.org.vn
[4]
ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models—arXiv 2404.11086 · https://arxiv.org/abs/2404.11086
[5]
VLegal-Bench: Cognitively Grounded Benchmark for Vietnamese Legal Reasoning—arXiv 2512.14554 · https://arxiv.org/abs/2512.14554
[6]
VLSP 2025 Challenge on Vietnamese Legal Small Language Models (LegalSLM)VLSP AssociationVLSP 2025 · https://vlsp.org.vn/vlsp2025/eval/legalSLM
[7]
VLSP 2025 MLQA-TSR: Vietnamese Multimodal Legal Question Answering on Traffic Sign RegulationVLSP 2025 ParticipantsarXiv 2510.20381 · https://arxiv.org/abs/2510.20381
[8]
VinaLLaMA: LLaMA-based Vietnamese Foundation ModelVilmarXiv 2312.11011 · https://arxiv.org/abs/2312.11011
[9]
PhoGPT: Generative Pre-training for VietnameseVinAI ResearcharXiv 2311.02945 · https://arxiv.org/abs/2311.02945

← nrl