Hỏi đáp hợp đồng nội bộ
Nạp 200 hợp đồng PDF lên máy chủ công ty. Hỏi: "Có bao nhiêu hợp đồng chứa điều khoản phạt vi phạm trên 10%?" Trả lời kèm số hợp đồng và số trang. Dữ liệu không rời khỏi mạng nội bộ.
Bộ công cụ Python mã nguồn mở để xây dựng ứng dụng AI tiếng Việt.
Mỗi đội làm AI tiếng Việt đều phải tự viết lại OCR, xử lý văn bản, prompts. Nôm gói chúng thành một thư viện. Một dòng pip install — bạn chỉ tập trung vào sản phẩm.
v0 ra mắt với module trọng tâm: trích xuất tài liệu. Các module khác sẽ ship dần theo tín hiệu cộng đồng. Mọi thứ chạy với LLM của bạn (OpenAI, Anthropic, hoặc Ollama nội bộ).
PDF hoặc ảnh scan → JSON có cấu trúc. OCR tiếng Việt + sửa dấu thanh + bóc tách bố cục + trích xuất trường theo schema bạn định nghĩa. Hợp đồng, công văn, CMND, biên lai.
Chuẩn hoá NFC, sửa dấu thanh sai vị trí, tách từ ghép, nhận diện chuyển ngữ Anh–Việt. Tiện ích nhỏ nhưng mọi pipeline đều cần.
Thư viện prompts có sẵn cho hợp đồng, công văn, đơn từ, thư điện tử công sở. Đã thử nghiệm trên Qwen3, Llama-3, GPT-4o, Claude. Có đánh số phiên bản.
Chữ Nôm là bộ chữ người Việt dùng để viết tiếng mẹ đẻ trong hơn một nghìn năm — trước khi chữ Quốc ngữ Latinh thay thế nó vào thế kỷ 20. Truyện Kiều của Nguyễn Du, Quốc âm thi tập của Nguyễn Trãi, Hồ Xuân Hương — những áng văn định hình bản sắc Việt đều được viết bằng Nôm.
Đặt tên một mô hình ngôn ngữ năm 2026 theo bộ chữ thế kỷ 13 không phải hoài niệm. Đó là tuyên ngôn: Việt Nam có truyền thống tự viết tiếng mình bằng phương tiện riêng. Nôm-LLM là phương tiện mới cho cùng truyền thống đó — mã nguồn mở, chạy nội bộ, không lệ thuộc cloud nước ngoài.
Mô hình được phát hành dưới giấy phép Apache 2.0. Trọng số mở. Công thức huấn luyện công khai. Chạy ngay trên phần cứng bạn đang có.
“Nôm là chữ của ta, để ghi tiếng của ta, do tay của ta.” — tinh thần phục dựng một bộ chữ, nay áp dụng cho một mô hình.
Nôm không thay thế mô hình của bạn — nó dạy mô hình hiểu ngữ cảnh Việt qua prompts, schema và pipeline OCR đã được tinh chỉnh. Để chứng minh điều đó, chúng tôi đang xây dựng VN-Bench v1 với các tác vụ thực tế: trích xuất hợp đồng, bóc tách công văn, OCR có dấu, chuyển ngữ Anh–Việt.
Chưa có số liệu nào ở đây vì v0 chưa phát hành — và chúng tôi không công bố con số nào trước khi đo. Phương pháp và bộ tác vụ đã được công khai trên VN-Bench. Bạn có thể theo dõi tiến độ ở đó.
Nạp 200 hợp đồng PDF lên máy chủ công ty. Hỏi: "Có bao nhiêu hợp đồng chứa điều khoản phạt vi phạm trên 10%?" Trả lời kèm số hợp đồng và số trang. Dữ liệu không rời khỏi mạng nội bộ.
Số công văn, ngày ban hành, đơn vị phát hành, nội dung chính. OCR tiếng Việt có dấu, độ chính xác cao trên ảnh mờ và bản scan cũ.
Triển khai trên một máy chủ có GPU. Tích hợp với tài liệu nội bộ, lịch họp, hệ thống quản lý công việc. Bảo mật ở mức không rời mạng nội bộ.
Bộ tách từ hiểu dấu thanh, từ ghép, hiện tượng chuyển ngữ Anh–Việt. Vector hoá chất lượng cao cho tiếng Việt — không phải tiếng Anh được dịch máy.
Đây là giao diện lập trình dự kiến — chưa phát hành trên PyPI. Sẽ ra mắt cùng phiên bản v0. Đăng ký nhận thông báo bên dưới.
# v0 · sắp ra mắt
from nom.doc import extract
result = extract("hop_dong.pdf", schema={
"so_hop_dong": str,
"ngay_ky": "date",
"ben_a": "party",
"ben_b": "party",
"tong_gia_tri": "amount_vnd",
})
# {'so_hop_dong': 'HĐ-2025-002', 'ngay_ky': '2025-03-14',
# 'ben_a': {...}, 'ben_b': {...}, 'tong_gia_tri': 1_500_000_000}Nôm phát hành dưới giấy phép Apache 2.0. Phiên bản v0 dự kiến mùa hè 2026. Để lại địa chỉ email để nhận bản đầu tiên cùng lời mời góp ý sớm.
Theo dõi tiến độ, đề xuất tính năng, gửi tác vụ cho VN-Bench:
# Cài đặt sau khi phiên bản v0 ra mắt:
pip install nom-vn
# Để nhận thông báo khi ra mắt:
curl https://nrl.ai/api/nom/dang-ky \
-d "[email protected]"
# Hoặc theo dõi qua GitHub:
# github.com/nrl-ai/nom · star + watch