Những điều LlamaParse và LlamaExtract hứa hẹn
LlamaParse và LlamaExtract từ LlamaIndex nằm trong số các công cụ nổi tiếng nhất trong hệ sinh thái xử lý tài liệu bằng AI. Lời hứa của chúng là: chuyển đổi mọi loại tài liệu — PDF, bản quét, biểu mẫu — thành văn bản Markdown có cấu trúc, được tối ưu hóa cho các quy trình RAG và ứng dụng LLM.
LlamaParse cung cấp các chế độ phân tích khác nhau: Nhanh (1 tín dụng/trang), Cân bằng (10 tín dụng), Cao cấp (45 tín dụng) và Agentic Plus (90 tín dụng). LlamaExtract bổ sung cho điều này bằng khả năng trích xuất dữ liệu dựa trên lược đồ — hãy định nghĩa một lược đồ JSON, và công cụ sẽ trích xuất dữ liệu có cấu trúc từ các tài liệu của Quý vị.
Thoạt nhìn, điều này nghe có vẻ hấp dẫn. Tuy nhiên, khi xem xét kỹ hơn, những điểm yếu cơ bản sẽ lộ ra — cùng với một câu hỏi còn cơ bản hơn nữa: Liệu chúng ta có thực sự cần những công cụ này nữa hay không?
Tại sao LlamaParse đang trở nên lỗi thời: Claude, GPT và các mô hình tương tự có thể tự thực hiện điều đó
Đây là sự thật khó chấp nhận đối với LlamaIndex: Các mô hình LLM thị giác hiện đại biến LlamaParse thành một lớp trung gian thừa thãi.
Claude 4, GPT-5, Gemini 2.5 Pro — tất cả các mô hình này đều có thể xử lý tài liệu trực tiếp. Chúng chấp nhận PDF và hình ảnh làm đầu vào, hiểu được bố cục, bảng biểu và cấu trúc, đồng thời cung cấp đầu ra có cấu trúc. Những gì LlamaParse cung cấp như một quy trình phức tạp với nhiều chế độ phân tích chính là khả năng gốc của các mô hình này.
Bản thân LlamaIndex cũng xác nhận xu hướng này trong blog của họ: "Mức chuẩn của việc phân tích tài liệu một lần thông qua chụp ảnh màn hình sử dụng các mô hình mới nhất đã được cải thiện đáng kể." Họ thừa nhận rằng độ chính xác của việc phân tích thuần túy bằng LLM đã tăng lên mạnh mẽ.
Điều này có ý nghĩa gì trong thực tế?
- Không cần lớp trung gian: Tại sao phải gửi tài liệu qua LlamaParse khi Claude có thể hiểu chúng trực tiếp?
- Không có hệ thống tín dụng: Một lệnh gọi API duy nhất tới Claude hoặc GPT chỉ tiêu tốn token — không có hệ thống tín dụng độc quyền với các cấp độ phân tầng gây nhầm lẫn
- Không bị phụ thuộc vào nhà cung cấp: LlamaParse ràng buộc Quý vị vào hệ sinh thái LlamaIndex. Các LLM gốc không phụ thuộc vào nhà cung cấp
- Không cần bảo trì: Các lỗi như vấn đề OCR thô trong phiên bản v0.6.1 (Vấn đề GitHub #621), nơi LlamaParse đột nhiên chỉ cung cấp văn bản OCR thô thay vì phân tích có cấu trúc, sẽ không tồn tại với các API LLM gốc
LlamaParse về cơ bản là một lớp bao quanh các LLM — và các lớp bao quanh sẽ trở nên lỗi thời khi công nghệ nền tảng trưởng thành.

Vấn đề khung giới hạn: Tại sao văn bản thuần túy là chưa đủ
Nhưng — và đây là điểm mấu chốt — cả LlamaParse lẫn các LLM gốc đều không giải quyết được vấn đề thực sự: Xử lý tài liệu doanh nghiệp cần nhiều hơn là chỉ văn bản.
Thật trớ trêu, chính LlamaIndex lại lập luận trong bài viết trên blog của họ với tiêu đề "Các API LLM không phải là bộ phân tích tài liệu hoàn chỉnh" đúng về điểm này: Các API LLM thuần túy thiếu điểm số độ tin cậy, khung giới hạn và trích dẫn nguồn. Nhưng chính giải pháp của họ cũng gặp phải những vấn đề nghiêm trọng ngay tại điểm này:
| Vấn đề | Vấn đề trên GitHub | Trạng thái |
|---|---|---|
| Chiều cao khung giới hạn không chính xác | #368 | Mở từ tháng 8 năm 2024 |
| Giá trị BBox = None → Gây lỗi Pydantic | #972 | Đã sửa vào tháng 10 năm 2025 |
| Giá trị mặc định thay vì tọa độ thực cho các bảng | #442 | Đang mở |
| Việc trích xuất hình ảnh thất bại trong các trường hợp biên | #528 | Đang mở |
| OCR thô thay vì phân tích sau khi cập nhật | #621 | Đang mở |
| Các tác vụ trích xuất thất bại mà không có thông báo lỗi | #1107 | Đang mở (tháng 2 năm 2026) |
Vấn đề cơ bản là: Nếu không có các khung giới hạn chính xác, việc xử lý tài liệu sẽ trở nên vô dụng đối với các ứng dụng doanh nghiệp. Tại sao?
- PDF có thể tìm kiếm: Nếu không có tọa độ, không thể tạo lớp văn bản vô hình
- Ẩn thông tin nhận dạng cá nhân (PII): Nếu không có định vị chính xác đến từng pixel, không thể thực hiện việc ẩn thông tin một cách chính xác
- Lịch sử kiểm toán: Nếu không có tham chiếu nguồn, quá trình trích xuất không thể được xác minh
- Con người trong vòng lặp: Các chuyên gia rà soát cần nhìn thấy nguồn gốc của giá trị đã được trích xuất
Bảng biểu, tài liệu quét và các yêu cầu cấp doanh nghiệp
Ngoài các vấn đề liên quan đến khung giới hạn (bounding box), cả LlamaParse và các phương pháp thuần túy dựa trên LLM đều không đáp ứng được các yêu cầu bổ sung của doanh nghiệp:
Nhận diện bảng biểu: Theo chuẩn đánh giá APIScout năm 2026, LlamaParse tụt hậu khoảng 20% so với các giải pháp chuyên biệt đối với các bảng biểu phức tạp nhiều cột, các ô gộp và các bảng trải dài nhiều trang. Một nghiên cứu chuyên sâu độc lập do Undatas thực hiện đã xác nhận: "LlamaParse gặp khó khăn đáng kể với các bảng biểu phức tạp, đặc biệt là những bảng có ô gộp hoặc tiêu đề phức tạp."
Tài liệu quét và chữ viết tay: Đối với các tài liệu quét ở độ phân giải thấp, độ chính xác giảm mạnh. Việc nhận diện công thức trong tài liệu quét? "Cực kỳ không đáng tin cậy." Còn chữ viết tay? Chỉ đạt mức "Một phần" theo ma trận tính năng chính thức.
Các hạn chế chính thức của LlamaParse:
- Tối đa 35 hình ảnh trên mỗi trang (phần còn lại bị bỏ qua)
- Tối đa 64KB văn bản trên mỗi trang (phần còn lại bị cắt bỏ)
- Kích thước tệp tối đa 512MB, chỉ trích xuất được 100MB
- Tối đa 500 trang cho mỗi tác vụ trích xuất
- Độ lồng lược đồ (schema nesting) chỉ tối đa 7 cấp
- Không hỗ trợ DOCX trong chế độ extract_stateless (GitHub #1077)
PaperOffice AI ngược lại:
- Hơn 800 mô hình LLM chuyên biệt — một mô hình cho mỗi loại tài liệu
- Nhận diện bảng biểu với hàng, cột, ô gộp — xuất dữ liệu có cấu trúc
- Nhận diện chữ viết tay thông qua AI Vision — chữ ký, chú thích, biểu mẫu
- Nhận diện OMR — hộp kiểm, vòng tròn, các ký hiệu với tọa độ chính xác
- Bao gồm nhận diện mã QR và mã vạch
- Hỗ trợ 139 ngôn ngữ với khả năng tự động phát hiện

So sánh chi phí: Tín dụng, xu và các chi phí ẩn
LlamaParse sử dụng mô hình định giá dựa trên tín dụng. 1.000 tín dụng có giá 1,25 USD. Điều mà ban đầu nghe có vẻ phải chăng sẽ nhanh chóng tích lũy thành số lớn:
| Chức năng | Tín dụng LlamaParse | Chi phí LlamaParse/trang | PaperOffice AI |
|---|---|---|---|
| Phân tích cơ bản | 1 tín dụng (Nhanh) | 0,00125 USD | 0,01 USD (AI-OCR) |
| Phân tích chất lượng cao | 10–45 tín dụng | 0,013–0,056 USD | 0,01 USD (AI-OCR) |
| Cao cấp (Agentic) | 45–90 tín dụng | 0,056–0,113 USD | 0,03 USD (AI-AI-IDP) |
| Trích xuất | 5–60 tín dụng | 0,006–0,075 USD | 0,03 USD (AI-IDP, đã bao gồm) |
Ở mức chất lượng tương đương (chế độ Cao cấp/Agentic), PaperOffice AI rẻ hơn từ 2 đến 4 lần. Ngoài ra:
- PaperOffice: Khung giới hạn, PDF có thể tìm kiếm, chức năng ẩn thông tin đã được bao gồm
- LlamaParse: Trích xuất bố cục tốn thêm +3 tín dụng cho mỗi trang
- PaperOffice: Không có hệ thống tín dụng — định giá minh bạch theo xu trên mỗi trang
- LlamaParse: Gói miễn phí giới hạn ở 10.000 tín dụng/tháng, sau đó trả tiền theo mức sử dụng với các giới hạn
Với 100.000 trang/tháng ở chế độ Cao cấp: LlamaParse = 5.625 USD so với PaperOffice AI-IDP = 3.000 USD. Tiết kiệm: 47%.
PaperOffice AI: Những gì quy trình xử lý tài liệu doanh nghiệp thực sự cần
PaperOffice AI tiếp cận theo một hướng hoàn toàn khác biệt so với LlamaParse. Thay vì hoạt động như một lớp bao bọc quanh các LLM chung chung, PaperOffice kết hợp ba công nghệ chuyên biệt:
1. Tích hợp OCR và LLM: Hơn 800 mô hình LLM chuyên biệt, được tinh chỉnh — mỗi mô hình được đào tạo trên các loại tài liệu cụ thể như hóa đơn, hợp đồng, giấy tờ tùy thân, phiếu giao hàng. Không có mô hình chung chung "một mô hình cho tất cả".
2. Khung giới hạn làm nền tảng: Mọi thành phần được nhận diện — văn bản, bảng biểu, hình ảnh, chữ viết tay — đều nhận được tọa độ pixel chính xác. Điều này cho phép:
- PDF có thể tìm kiếm: Bản quét gốc + lớp văn bản LLM vô hình = có thể tìm kiếm, sao chép và lưu trữ
- Che giấu thông tin cá nhân (PII): Che giấu chính xác tuân thủ GDPR — không phải tìm và thay thế văn bản, mà là che giấu chính xác đến từng điểm ảnh
- Con người trong vòng lặp: Nhấp vào một giá trị đã trích xuất → lập tức xem vị trí xuất hiện của nó trong bản gốc
- Lịch sử kiểm toán: Mọi điểm dữ liệu được trích xuất đều có thể truy nguyên và xác minh
3. Zero-Shot không cần mẫu: Không cần mẫu, không cần đào tạo, không cần quy tắc. Prompting tự nhiên theo ngôn ngữ con người — hãy mô tả bằng ngôn ngữ tự nhiên những gì Quý vị muốn trích xuất.
Ngoài ra: Trung tâm dữ liệu tại EU, tuân thủ GDPR, có sẵn giải pháp triển khai tại chỗ (on-premise). Trong khi LlamaParse buộc mọi thứ phải lên đám mây (với bộ nhớ đệm 48 giờ!), PaperOffice cung cấp chủ quyền dữ liệu toàn diện.
| Tính năng | LlamaParse | LLM gốc | PaperOffice AI |
|---|---|---|---|
| Đầu ra Markdown | ✅ | ✅ | ✅ |
| Hộp giới hạn (Bounding boxes) | ⚠️ Lỗi | ❌ | ✅ Chính xác đến từng điểm ảnh |
| PDF có thể tìm kiếm | ❌ | ❌ | ✅ |
| Che giấu PII | ❌ | ❌ | ✅ |
| Bảng biểu (phức tạp) | ⚠️ ~80% | ⚠️ Thay đổi | ✅ Chuyên biệt |
| Chữ viết tay | ⚠️ Một phần | ⚠️ Thay đổi | ✅ AI Vision |
| Triển khai tại chỗ (On-premise) | ❌ | ❌ | ✅ |
| Máy chủ GDPR/EU | ❌ | ⚠️ | ✅ |
| Giá (doanh nghiệp) | $0.056–0.113 | Thay đổi | $0.01–0.03 |