Công cụ mã nguồn mở · IBM Research · LF AI & Data
PDF vỡ bảng, file scan OCR loạn chữ, dữ liệu nhạy cảm không dám đưa lên cloud — Docling xử lý gọn hết trong một công cụ, chạy hoàn toàn trên máy, miễn phí 100%.
⭐ 59.6k GitHub Stars | 🔓 License MIT | 🐍 Python 3.10+ | 💻 macOS · Linux · Windows | 🔒 Chạy offline / local

1. Docling là gì?
Nếu anh từng vật lộn với cảnh PDF đọc được thì Word lại lỗi, PowerPoint bung layout, Excel vỡ bảng, còn file scan thì OCR ra một mớ chữ chạy loạn — thì Docling là kiểu project nhìn phát thấy “cuối cùng cũng có người gom đống rắc rối này lại xử lý tử tế”.
Docling là thư viện mã nguồn mở viết bằng Python, được thiết kế để đơn giản hóa việc xử lý tài liệu cho AI bằng cách parse nhiều định dạng khác nhau và đưa chúng về một biểu diễn thống nhất có thể xuất tiếp sang Markdown, HTML hoặc JSON.
Điểm đáng chú ý là Docling không chỉ đọc text thô mà còn hiểu tài liệu theo cấu trúc: layout trang, thứ tự đọc, bảng biểu, công thức toán, đoạn code, và OCR cho tài liệu scan. Đây là sự khác biệt cốt lõi so với các thư viện “bóc chữ” thông thường.
📌 Nguồn gốc dự án: Docling được khởi xướng bởi nhóm AI for Knowledge của IBM Research Zurich, hiện được host trong LF AI & Data Foundation và phát triển theo hướng open source cộng đồng. Repo chính thức tại github.com/docling-project/docling.
2. Định dạng đầu vào và đầu ra được hỗ trợ
📥 Đầu vào (Input formats)
| Nhóm | Định dạng | Ghi chú |
|---|---|---|
| Văn phòng | PDF · DOCX · PPTX · XLSX | Hỗ trợ đầy đủ, giữ nguyên bảng & layout |
| Hình ảnh | PNG · TIFF · JPEG · BMP | Kết hợp OCR & Vision AI |
| Audio | WAV · MP3 · WebVTT | Chuyển speech thành text |
| Web & markup | HTML · LaTeX · Markdown (.qmd, .Rmd) | |
| Chuyên biệt | USPTO patents · JATS articles · XBRL financial reports | XML schemas chuyên ngành |
| Plain text | .txt · .text |
📤 Đầu ra (Export formats)
- 📝 Markdown — Tối ưu cho AI / LLM
- 🌐 HTML — Phù hợp hiển thị web
- 📦 JSON (DoclingDocument) — Dùng cho pipeline AI
- 📄 Text thuần — Plain text đơn giản
- 🖼️ Hình ảnh trang — PNG/JPEG từng trang

