Xây cho tiếng Việt.

Bộ công cụ Python mã nguồn mở để xây dựng ứng dụng AI tiếng Việt.

Mỗi đội làm AI tiếng Việt đều phải tự viết lại OCR, xử lý văn bản, truy xuất. Nôm gói chúng thành một thư viện — local-first, dùng LLM của bạn, chạy trên phần cứng của bạn. Một dòng pip install — bạn chỉ tập trung vào sản phẩm.

đọc tài liệu →bắt đầu nhanh github

§ 01 · bên trong có gì

Một thư viện. Ba thứ bạn dùng nhiều nhất.

Nôm gói các tiện ích NLP riêng cho tiếng Việt và một pipeline RAG local-first vào cùng một gói. Dùng riêng một tiện ích, dùng cả RAG, hoặc chạy `nom serve` để có ứng dụng web chat ngay. LLM do bạn chọn — mặc định Ollama; cũng hỗ trợ OpenAI, Anthropic, llama.cpp.

nom.textApache 2.0

dấu · chuẩn hoá · tách từpip install nom-vn

Chuẩn hoá NFC, khôi phục dấu thanh (luật zero-dep, mô hình T5 giấy phép Apache, hoặc bất kỳ LLM nào), tách từ. Những viên gạch nhỏ mà mọi pipeline tiếng Việt đều cần — kèm số đo để bạn chọn đúng.

nom.doc + nom.ragApache 2.0

tài liệu → câu trả lờipip install "nom-vn[doc,embeddings,llm]"

PDF, DOCX, XLSX, PPTX, HTML, ảnh scan. Nối thẳng vào pipeline RAG hiểu tiếng Việt với truy xuất lai, rerank cross-encoder, và trích dẫn bấm được. Mang LLM nào cũng chạy.

nom serveApache 2.0

ứng dụng web chatpip install "nom-vn[chat]"

Server FastAPI + giao diện React đã đóng sẵn trong wheel. Một câu lệnh, mở tại localhost:8080. Thả PDF vào, hỏi bằng tiếng Việt, nhận câu trả lời kèm trích dẫn từ chính tài liệu của bạn.

§ 02 · vì sao tên Nôm

Một thiên niên kỷ chữ viết Việt.

喃

Chữ Nôm là bộ chữ người Việt dùng để viết tiếng mẹ đẻ trong hơn một nghìn năm — trước khi chữ Quốc ngữ Latinh thay thế nó vào thế kỷ 20. Truyện Kiều của Nguyễn Du, Quốc âm thi tập của Nguyễn Trãi, Hồ Xuân Hương — những áng văn định hình bản sắc Việt đều được viết bằng Nôm.

Đặt tên một bộ công cụ năm 2026 theo bộ chữ thế kỷ 13 không phải hoài niệm. Đó là tuyên ngôn: Việt Nam có truyền thống tự viết tiếng mình bằng phương tiện riêng. Nôm là phương tiện mới cho cùng truyền thống đó — mã nguồn mở, chạy nội bộ, không lệ thuộc cloud nước ngoài.

Phát hành dưới giấy phép Apache 2.0. Số đo có thể tái lập. Mọi mô hình chúng tôi công bố đều kèm công thức huấn luyện. Chạy ngay trên phần cứng bạn đang có.

“Nôm là chữ của ta, để ghi tiếng của ta, do tay của ta.” — tinh thần phục dựng một bộ chữ, nay áp dụng cho một bộ công cụ.

§ 03 · đo lường

Đo bằng số, không bằng lời.

Nôm không thay thế LLM của bạn — nó thêm lớp riêng cho tiếng Việt (chuẩn hoá văn bản, dấu thanh, tách từ, truy xuất, OCR) lên trên. Mỗi giá trị mặc định đều có một con số đo được, sinh ra từ script trong benchmarks/ chạy được trên bản clone sạch.

no numbers · no estimates · no placeholders

Số sống cùng mã nguồn, không nằm trên trang này — như vậy số không bao giờ lệch. Bằng chứng: từng trang nhiệm vụ trong docs/tasks/, bản tổng hợp docs/benchmark.md, và script tái lập trong benchmarks/. Chúng tôi không công bố một con số chưa đo.

xem bằng chứng →vn-bench leaderboard →

§ 04 · tình huống thực tế

Việc Nôm làm tốt.

hợp đồng

Hỏi đáp hợp đồng nội bộ

Nạp 200 hợp đồng PDF lên máy chủ công ty. Hỏi: "Có bao nhiêu hợp đồng chứa điều khoản phạt vi phạm trên 10%?" Trả lời kèm số hợp đồng và số trang. Dữ liệu không rời khỏi mạng nội bộ.

công văn

Tóm tắt công văn, trích xuất trường

Số công văn, ngày ban hành, đơn vị phát hành, nội dung chính. OCR tiếng Việt có dấu, độ chính xác cao trên ảnh mờ và bản scan cũ.

trợ lý

Trợ lý nội bộ chạy trên máy chủ công ty

Triển khai trên một máy chủ có GPU. Tích hợp với tài liệu nội bộ, lịch họp, hệ thống quản lý công việc. Bảo mật ở mức không rời mạng nội bộ.

truy xuất

Truy xuất tăng cường cho tài liệu Việt

Bộ tách từ hiểu dấu thanh, từ ghép, hiện tượng chuyển ngữ Anh–Việt. Vector hoá chất lượng cao cho tiếng Việt — không phải tiếng Anh được dịch máy.

§ 05 · bắt đầu nhanh

Ba dòng để có RAG tiếng Việt.

Mã chạy được, không phải mã giả — pip install nom-vn. Tài liệu có đủ mọi backend, gói extras, và công thức.

pip install nom-vn                # text + chunking + retrieve + rag
pip install "nom-vn[doc]"         # + parser PDF / Office / OCR
pip install "nom-vn[embeddings]"  # + sentence-transformers
pip install "nom-vn[llm]"         # + adapter Ollama / OpenAI
pip install "nom-vn[chat]"        # + FastAPI / React UI (gồm tất cả ở trên)
pip install "nom-vn[all]"         # toàn bộ

# Sau đó, để chạy ứng dụng web chat:
nom serve   # mở tại http://localhost:8080

§ 06 · cài đặt & cộng đồng

Cài. Trích dẫn. Tham gia.

Apache 2.0 — dùng, fork, ship thoải mái. Nếu bạn công bố công trình có dùng Nôm, khối trích dẫn bên cạnh là dạng chính thức.

Theo dõi tiến độ, mở issue, đóng góp:

→github · nrl-ai/nom-vn →hugging face · nrl-ai →cộng đồng discord

bibtex

# Cài đặt
pip install nom-vn          # bản lõi
pip install "nom-vn[all]"   # toàn bộ

# Trích dẫn
@software{nom2026,
  title  = {Nôm: an open Python toolkit for Vietnamese AI applications},
  author = {Nguyen, Viet-Anh and {Neural Research Lab}},
  year   = {2026},
  url    = {https://nrl.ai/nom},
  note   = {Apache 2.0}
}

← nrl