Trích xuất hợp đồng
Cho một hợp đồng PDF, trích xuất các trường: số hợp đồng, ngày ký, các bên, tổng giá trị, điều khoản phạt. Đo bằng F1 trên độ chính xác trường.
Nơi tổng hợp các mô hình lớn được đánh giá trên tiếng Việt. Số liệu lấy trực tiếp từ leaderboard công khai. Sẽ mở rộng với các tác vụ ứng dụng do NRL biên soạn.
Hiện tại VN-Bench tổng hợp dữ liệu từ VMLU. Phiên bản tiếp theo sẽ bổ sung tác vụ thực tế: trích xuất hợp đồng, bóc tách công văn, OCR có dấu, chuyển ngữ Anh–Việt.
VN-Bench v0 không tự chạy đánh giá. Trang này tổng hợp số liệu công khai từ các nguồn được uy tín trong cộng đồng nghiên cứu tiếng Việt — chủ yếu là leaderboard VMLU do Zalo AI và JAIST duy trì, kết hợp các kết quả công bố trong chuỗi VLSP và các bài báo học thuật.
Mỗi dòng dưới đây có đường dẫn tới nguồn gốc. Số liệu cập nhật ngày 2026-04-25. Khi mô hình mới xuất hiện, chúng tôi cập nhật trong vòng vài tuần.
VN-Bench v1 (đang phát triển cùng bộ công cụ Nôm) sẽ bổ sung các tác vụ ứng dụng mà VMLU chưa bao phủ: trích xuất tài liệu, hỏi đáp pháp lý, OCR có dấu, chuyển ngữ. Mục tiêu là một thước đo gần với công việc thực tế của các đội phát triển AI tại Việt Nam.
VMLU là bộ đánh giá đa nhiệm gồm 10.880 câu hỏi trắc nghiệm, trải đều 58 môn học (STEM, khoa học xã hội, nhân văn, kiến thức chung). Đánh giá zero-shot. Hai bảng: mô hình huấn luyện từ đầu, và mô hình tinh chỉnh.
Mọi điểm số dưới đây thuộc về tác giả của bộ đánh giá VMLU. Trang này chỉ tổng hợp và liên kết về nguồn gốc.
| Hạng | Mô hình | Tổ chức | Cơ sở | Điểm trung bình | Ngạch |
|---|---|---|---|---|---|
| 1 | axis-sovereign | International AXIS | — | 85.75 | tinh chỉnh |
| 2 | V-LLM v1 | VinSmart Future | — | 85.11 | tinh chỉnh |
| 3 | MISA-AI-1.0 | MISA JSC | Qwen3 | 81.26 | tinh chỉnh |
| 4 | Vi-Sovereign-Medium | NLP-CORE-Lab | Qwen3-32B | 80.57 | tinh chỉnh |
| 5 | VNPTAI.IO-Medium-R1.2 | VNPT AI | — | 79.61 | tinh chỉnh |
| 6 | BnK-AI-Medium-v2.1 | BnK Solution | — | 78.84 | tinh chỉnh |
| 7 | Cake-Mochi | BeFinancial | Qwen3-32B | 77.64 | tinh chỉnh |
| 8 | VNPTAI.IO-Medium-R1 | VNPT AI | — | 77.43 | tinh chỉnh |
| 9 | MISA-Llama3-v1.1 | MISA JSC | Llama-3 | 76.87 | tinh chỉnh |
| 10 | BnK-AI-Medium-v2 | BnK Solution | — | 76.66 | tinh chỉnh |
| Hạng | Mô hình | Tổ chức | Cơ sở | Điểm trung bình | Ngạch |
|---|---|---|---|---|---|
| — | QwQ-32B | Alibaba Cloud | huấn luyện từ đầu | 76.13 | từ đầu |
| — | Qwen2.5-72B-Instruct-AWQ | Alibaba Cloud | huấn luyện từ đầu | 69.17 | từ đầu |
| — | Llama-3-70B | Meta | huấn luyện từ đầu | 66.44 | từ đầu |
| — | KiLM-13b-v24.7.1 | Kiki AI / Zalo | huấn luyện từ đầu | 66.07 | từ đầu |
| — | GPT-4 | OpenAI | huấn luyện từ đầu | 65.53 | từ đầu |
Cột hạng chỉ áp dụng trong cùng một ngạch. Mô hình tinh chỉnh thường có điểm cao hơn vì được điều chỉnh theo định dạng VMLU. Để so sánh năng lực gốc của mô hình, đối chiếu trong cột 'huấn luyện từ đầu'.
Nguồn: VMLU Leaderboard (cập nhật 2026-04) →VMLU thiên về kiến thức học thuật. Cộng đồng tiếng Việt còn có nhiều bộ đánh giá khác cho các tác vụ khác nhau. Chúng tôi liệt kê để bạn chọn được bộ đánh giá phù hợp với nhu cầu sử dụng.
VLSP Association
Hội nghị thường niên, có nhiều tác vụ: LLM, ASR, dịch máy, semantic parsing, hỏi đáp pháp lý.
Học thuật (arXiv 2404.11086)
Bộ đánh giá tổng hợp: kiến thức chung, đọc hiểu, suy luận, hội thoại.
Học thuật (arXiv 2512.14554)
Suy luận pháp lý: dự đoán điều luật, tóm tắt, trích dẫn.
VLSP Association
Mô hình ngôn ngữ nhỏ chuyên biệt cho lĩnh vực pháp lý tiếng Việt.
VLSP Association
Hỏi đáp pháp lý đa phương thức về biển báo giao thông.
VMLU đo kiến thức học thuật. VN-Bench v1 đo công việc thực tế. Sau đây là các tác vụ chúng tôi đang biên soạn cùng cộng đồng. Mở để gửi mô hình sau khi v1 phát hành.
Cho một hợp đồng PDF, trích xuất các trường: số hợp đồng, ngày ký, các bên, tổng giá trị, điều khoản phạt. Đo bằng F1 trên độ chính xác trường.
Số công văn, ngày ban hành, đơn vị phát hành, nội dung chính. Đo bằng exact-match.
Tài liệu scan tiếng Việt có dấu → cấu trúc JSON. Đo bằng độ chính xác ký tự và độ chính xác trường.
Tác vụ sinh văn bản tiếng Việt — đo độ chính xác dấu thanh trên các đoạn dài.
Hội thoại tự nhiên xen kẽ Anh–Việt — kiểm tra mô hình hiểu và phản hồi đúng ngữ cảnh.
Mượn từ VLegal-Bench — không phát triển song song mà liên kết để cộng đồng dùng chung.
Khi VN-Bench v1 phát hành, chúng tôi sẽ mở cổng gửi mô hình. Trong lúc chờ, bạn có thể đăng ký thông báo, đề xuất tác vụ, hoặc đóng góp dữ liệu đánh giá.
Trang này không tự chạy đánh giá. Mọi số liệu đến từ các nguồn công khai dưới đây. Các tác giả của những bộ đánh giá giữ toàn bộ quyền tác giả với điểm số mô hình. Nếu bạn là tác giả và muốn yêu cầu chỉnh sửa hoặc gỡ bỏ, vui lòng liên hệ [email protected].