§ nôm · 2026apache 2.0 · phiên bản v0 sắp ra mắt
Nôm
v0 đang phát triển

Xây cho tiếng Việt.

Bộ công cụ Python mã nguồn mở để xây dựng ứng dụng AI tiếng Việt.

Mỗi đội làm AI tiếng Việt đều phải tự viết lại OCR, xử lý văn bản, prompts. Nôm gói chúng thành một thư viện. Một dòng pip install — bạn chỉ tập trung vào sản phẩm.

§ 01 · các module

Ba module. Một thư viện pip.

v0 ra mắt với module trọng tâm: trích xuất tài liệu. Các module khác sẽ ship dần theo tín hiệu cộng đồng. Mọi thứ chạy với LLM của bạn (OpenAI, Anthropic, hoặc Ollama nội bộ).

nom.docApache 2.0
trích xuất tài liệuv0 · sắp ra mắt

PDF hoặc ảnh scan → JSON có cấu trúc. OCR tiếng Việt + sửa dấu thanh + bóc tách bố cục + trích xuất trường theo schema bạn định nghĩa. Hợp đồng, công văn, CMND, biên lai.

nom.textApache 2.0
xử lý văn bản Việtv0 · sắp ra mắt

Chuẩn hoá NFC, sửa dấu thanh sai vị trí, tách từ ghép, nhận diện chuyển ngữ Anh–Việt. Tiện ích nhỏ nhưng mọi pipeline đều cần.

nom.promptsApache 2.0
prompts đã thử nghiệmv1 · roadmap

Thư viện prompts có sẵn cho hợp đồng, công văn, đơn từ, thư điện tử công sở. Đã thử nghiệm trên Qwen3, Llama-3, GPT-4o, Claude. Có đánh số phiên bản.

§ 02 · vì sao tên Nôm

Một thiên niên kỷ chữ viết Việt.

Chữ Nôm là bộ chữ người Việt dùng để viết tiếng mẹ đẻ trong hơn một nghìn năm — trước khi chữ Quốc ngữ Latinh thay thế nó vào thế kỷ 20. Truyện Kiều của Nguyễn Du, Quốc âm thi tập của Nguyễn Trãi, Hồ Xuân Hương — những áng văn định hình bản sắc Việt đều được viết bằng Nôm.

Đặt tên một mô hình ngôn ngữ năm 2026 theo bộ chữ thế kỷ 13 không phải hoài niệm. Đó là tuyên ngôn: Việt Nam có truyền thống tự viết tiếng mình bằng phương tiện riêng. Nôm-LLM là phương tiện mới cho cùng truyền thống đó — mã nguồn mở, chạy nội bộ, không lệ thuộc cloud nước ngoài.

Mô hình được phát hành dưới giấy phép Apache 2.0. Trọng số mở. Công thức huấn luyện công khai. Chạy ngay trên phần cứng bạn đang có.

“Nôm là chữ của ta, để ghi tiếng của ta, do tay của ta.” — tinh thần phục dựng một bộ chữ, nay áp dụng cho một mô hình.
§ 03 · đo lường

Đo bằng số, không bằng lời.

Nôm không thay thế mô hình của bạn — nó dạy mô hình hiểu ngữ cảnh Việt qua prompts, schema và pipeline OCR đã được tinh chỉnh. Để chứng minh điều đó, chúng tôi đang xây dựng VN-Bench v1 với các tác vụ thực tế: trích xuất hợp đồng, bóc tách công văn, OCR có dấu, chuyển ngữ Anh–Việt.

no numbers · no estimates · no placeholders

Chưa có số liệu nào ở đây vì v0 chưa phát hành — và chúng tôi không công bố con số nào trước khi đo. Phương pháp và bộ tác vụ đã được công khai trên VN-Bench. Bạn có thể theo dõi tiến độ ở đó.

§ 04 · tình huống thực tế

Việc Nôm làm tốt.

hợp đồng

Hỏi đáp hợp đồng nội bộ

Nạp 200 hợp đồng PDF lên máy chủ công ty. Hỏi: "Có bao nhiêu hợp đồng chứa điều khoản phạt vi phạm trên 10%?" Trả lời kèm số hợp đồng và số trang. Dữ liệu không rời khỏi mạng nội bộ.

công văn

Tóm tắt công văn, trích xuất trường

Số công văn, ngày ban hành, đơn vị phát hành, nội dung chính. OCR tiếng Việt có dấu, độ chính xác cao trên ảnh mờ và bản scan cũ.

trợ lý

Trợ lý nội bộ chạy trên máy chủ công ty

Triển khai trên một máy chủ có GPU. Tích hợp với tài liệu nội bộ, lịch họp, hệ thống quản lý công việc. Bảo mật ở mức không rời mạng nội bộ.

truy xuất

Truy xuất tăng cường cho tài liệu Việt

Bộ tách từ hiểu dấu thanh, từ ghép, hiện tượng chuyển ngữ Anh–Việt. Vector hoá chất lượng cao cho tiếng Việt — không phải tiếng Anh được dịch máy.

§ 05 · xem trước giao diện lập trình

Năm dòng để trích xuất một hợp đồng.

Đây là giao diện lập trình dự kiến — chưa phát hành trên PyPI. Sẽ ra mắt cùng phiên bản v0. Đăng ký nhận thông báo bên dưới.

# v0 · sắp ra mắt
from nom.doc import extract

result = extract("hop_dong.pdf", schema={
    "so_hop_dong": str,
    "ngay_ky": "date",
    "ben_a": "party",
    "ben_b": "party",
    "tong_gia_tri": "amount_vnd",
})
# {'so_hop_dong': 'HĐ-2025-002', 'ngay_ky': '2025-03-14',
#  'ben_a': {...}, 'ben_b': {...}, 'tong_gia_tri': 1_500_000_000}
§ 06 · đăng ký & cộng đồng

Đăng ký nhận v0. Cùng góp ý xây dựng.

Nôm phát hành dưới giấy phép Apache 2.0. Phiên bản v0 dự kiến mùa hè 2026. Để lại địa chỉ email để nhận bản đầu tiên cùng lời mời góp ý sớm.

Theo dõi tiến độ, đề xuất tính năng, gửi tác vụ cho VN-Bench:

bibtex
# Cài đặt sau khi phiên bản v0 ra mắt:
pip install nom-vn

# Để nhận thông báo khi ra mắt:
curl https://nrl.ai/api/nom/dang-ky \
  -d "[email protected]"

# Hoặc theo dõi qua GitHub:
# github.com/nrl-ai/nom · star + watch