LlamaParse 和 LlamaExtract 的承诺
来自 LlamaIndex 的 LlamaParse 和 LlamaExtract 是人工智能文档处理生态系统中最为知名的工具之一。它们的承诺在于:将任何类型的文档——包括 PDF、扫描件和表格——转换为结构化的 Markdown 文本,并针对 RAG 管道和 LLM 应用进行优化。
LlamaParse 提供不同的解析模式:快速(每页 1 个积分)、平衡(10 个积分)、高级(45 个积分)和代理增强(90 个积分)。LlamaExtract 则通过基于模式的数据提取功能对此进行补充——定义一个 JSON 模式,该工具即可从您的文档中提取结构化数据。
乍一看,这听起来很有吸引力。但仔细检查后,根本性的弱点便会显现——随之而来的甚至是一个更根本的问题:我们是否还需要这些工具了?
LlamaParse 为何变得过时:Claude、GPT 等工具可自行完成
对于 LlamaIndex 来说,这是一个令人不安的事实:现代视觉 LLM 使得 LlamaParse 成为一个冗余的中间件层。
Claude 4、GPT-5、Gemini 2.5 Pro——所有这些模型都能直接处理文档。它们接受 PDF 和图像作为输入,理解布局、表格和结构,并提供结构化输出。LlamaParse 所提供的具有多种解析模式的复杂管道正是这些模型的原生能力。
LlamaIndex 在其自己的博客中也确认了这一趋势:“通过截图使用最新模型实现的单样本文档解析基线已大幅改善。”他们承认,纯 LLM 解析的准确性已显著提高。
这在实践中意味着什么?
- 无需中间件:既然 Claude 能直接理解文档,为何还要将文档通过 LlamaParse 发送?
- 无需积分系统:对 Claude 或 GPT 进行一次API调用仅需消耗令牌——无需具有令人困惑的层级结构的专有积分系统
- 无需供应商锁定:LlamaParse 将您绑定在 LlamaIndex 生态系统中。原生 LLM 与供应商无关
- 无需维护:原生 LLM API 不存在诸如 v0.6.1 版本中出现的原始OCR问题(GitHub Issue #621)等缺陷,在该问题中 LlamaParse 突然仅提供原始 OCR 文本而非结构化分析
LlamaParse 本质上只是 LLM 的包装器——而当底层技术成熟时,包装器便会过时。

边界框问题:为何纯文本不足够
但是——这是关键点——LlamaParse 和原生 LLM 均未解决实际问题:企业级文档处理需要的不仅仅是文本。
颇具讽刺意味的是,LlamaIndex 在其博客中关于“LLM API 并非完整的文档解析器”的论述恰恰指出了这一点:纯 LLM API 缺乏置信度分数、边界框和来源引用。但他们自己的解决方案在此处也存在严重问题:
| 问题 | GitHub 问题编号 | 状态 |
|---|---|---|
| 边界框高度不正确 | #368 | 自 2024 年 8 月起开放 |
| BBox 值为 None → Pydantic 崩溃 | #972 | 2025 年 10 月已修复 |
| 表格使用默认值而非真实坐标 | #442 | 开放 |
| 边缘情况下的图表提取失败 | #528 | 开放 |
| 更新后提供原始 OCR 而非分析结果 | #621 | 开放 |
| 提取任务失败且无错误消息 | #1107 | 开放(2026 年 2 月) |
根本问题在于:没有精确的边界框,文档处理对企业级应用而言毫无用处。为何如此?
- 可搜索的 PDF 文件:若无坐标,则无法创建不可见的文本层
- PII 数据脱敏:若无像素级精确定位,则无法准确进行数据脱敏
- 审计追踪:若无源文件引用,则提取结果无法验证
- 人工介入:审核人员需要查看提取值的来源位置
表格、扫描件及企业级需求
除了边界框问题外,LlamaParse 和纯 LLM 方法在满足其他企业级需求方面也存在不足:
表格识别:根据 2026 年 APIScout 基准测试,LlamaParse 在处理复杂多列表格、合并单元格和多页表格时,落后于专用解决方案约20%。Undatas 的独立深入分析证实:"LlamaParse 在处理复杂表格时表现不佳,尤其是包含合并单元格或复杂标题的表格。"
扫描件和手写体:对于低分辨率的扫描件,准确率会大幅下降。扫描件的公式识别?"极不可靠。"手写体?根据官方功能矩阵,仅能达到"部分"识别。
LlamaParse 的官方限制:
- 每页最多 35 张图片(其余将被忽略)
- 每页最多 64KB 文本(其余将被截断)
- 文件大小上限 512MB,提取上限 100MB
- 单次提取任务最多 500 页
- Schema 嵌套深度仅限 7 层
- extract_stateless 不支持 DOCX(GitHub #1077)
相比之下,PaperOffice AI:
- 800 多个专用 LLM——每种文档类型一个
- 支持行、列和合并单元格的表格识别——结构化导出
- 通过 AI Vision 识别手写体——签名、注释和表格
- OMR 识别——复选框、圆圈和标记,附带精确坐标
- 包含二维码和条形码识别
- 支持 139 种语言并自动检测

成本对比:信用点、美分及隐性成本
LlamaParse 采用基于信用点的定价模式。1,000 个信用点价格为 1.25 美元。起初看似实惠,但累积起来成本会迅速增加:
| 功能 | LlamaParse 信用点 | LlamaParse 每页成本 | PaperOffice AI |
|---|---|---|---|
| 基础解析 | 1 个信用点(快速) | $0.00125 | $0.01(AI-OCR) |
| 高质量解析 | 10–45 个信用点 | $0.013–0.056 | $0.01(AI-OCR) |
| 高级代理模式 | 45–90 个信用点 | $0.056–0.113 | $0.03(AI-AI-IDP) |
| 提取 | 5–60 个信用点 | $0.006–0.075 | $0.03(AI-IDP,包含在内) |
在同等质量(高级/代理模式)下,PaperOffice AI 的成本低 2–4 倍。此外:
- PaperOffice:边界框、可搜索 PDF、数据脱敏包含在内
- LlamaParse:布局提取需额外增加每页 3 个信用点
- PaperOffice:无信用点系统——透明的每页美分定价
- LlamaParse:免费层级每月仅限 10,000 个信用点,之后按量付费且有上限
在高级模式下每月处理 100,000 页:LlamaParse = $5,625,而 PaperOffice AI-IDP = $3,000。节省 47%。
PaperOffice AI:企业文档处理真正所需
PaperOffice AI 采取与 LlamaParse 根本不同的方法。它不是通用 LLM 的包装器,而是结合了三项专用技术:
1. OCR-LLM 融合:800 多个专用、微调的 LLM——每个模型针对特定文档类型(如发票、合同、身份证件、送货单)进行训练。没有通用的“一个模型通吃所有”。
2. 边界框作为基础:每个识别到的元素——文本、表格、图片、手写体——都会获得精确的像素坐标。这实现了:
- 可搜索的 PDF 文件:原始扫描件 + 不可见的 LLM 文本层 = 可搜索、可复制、可归档
- PII 数据脱敏:精确符合 GDPR 规范的脱敏处理——并非简单的文本搜索与替换,而是像素级精确的脱敏
- 人机协同:点击提取的值 → 立即查看其在原始文件中的位置
- 审计追踪:每个提取的数据点均可追溯和验证
3. 零样本且无需模板:无需模板、无需训练、无需规则。自然语言提示——用自然语言描述您希望提取的内容。
此外:欧盟数据中心、符合 GDPR 规范、支持本地部署。虽然 LlamaParse 强制将所有数据上传至云端(并带有 48 小时缓存!),而 PaperOffice 提供完整的数据主权。
| 功能特性 | LlamaParse | 原生 LLM | PaperOffice AI |
|---|---|---|---|
| Markdown 输出 | ✅ | ✅ | ✅ |
| 边界框 | ⚠️ 存在缺陷 | ❌ | ✅ 像素级精确 |
| 可搜索 PDF | ❌ | ❌ | ✅ |
| PII 数据脱敏 | ❌ | ❌ | ✅ |
| 表格(复杂) | ⚠️ 约 80% | ⚠️ 不固定 | ✅ 专用优化 |
| 手写体识别 | ⚠️ 部分支持 | ⚠️ 不固定 | ✅ AI 视觉技术 |
| 本地部署 | ❌ | ❌ | ✅ |
| 欧盟服务器/GDPR 合规 | ❌ | ⚠️ 不固定 | ✅ |
| 企业价格 | $0.056–0.113 | 不固定 | $0.01–0.03 |