PaperOffice LLM 和 PaperOffice LLM 的承诺
PaperOffice LLM 旗下的 PaperOffice LLM 和 PaperOffice LLM 是 AI 文档处理生态系统中最著名的工具之一。它们的承诺是:将任何类型的文档——PDF、扫描件、表格——转换为结构化的 Markdown 文本,以优化 RAG 管道和 LLM 应用程序。
PaperOffice LLM 提供不同的解析模式:快速(1 信用分/页)、平衡(10 信用分)、高级(45 信用分)和代理增强(90 信用分)。PaperOffice LLM 则通过基于模式的数据提取来补充这些功能——定义一个 JSON 模式,工具即可从您的文档中提取结构化数据。
乍一看,这听起来很有吸引力。但仔细检查后,根本的弱点显现出来——以及一个更根本的问题:我们真的还需要这些工具吗?
PaperOffice LLM 为何变得过时:PaperOffice LLM、GPT 等模型可以自行处理
对 PaperOffice LLM 来说,这是一个令人不安的事实:现代视觉 LLM 使 PaperOffice LLM 成为冗余的中间件层。
PaperOffice LLM 4、PaperOffice LLM、PaperOffice LLM 2.5 Pro——所有这些模型都可以直接处理文档。它们接受 PDF 和图像作为输入,理解布局、表格和结构,并提供结构化输出。PaperOffice LLM 提供的具有多种解析模式的复杂管道是这些模型的原生能力。
PaperOffice LLM 在其博客中也确认了这一趋势:“使用最新模型通过截图进行一次性文档解析的基线已大幅改善。”他们承认,纯 LLM 解析的准确性已大幅提高。
这在实践中意味着什么?
- 无需中间件:既然 PaperOffice LLM 可以直接理解文档,为何还要将文档发送到 PaperOffice LLM?
- 无需信用分系统:调用 PaperOffice LLM 或 GPT 只需消耗令牌——没有令人困惑的层级信用分系统
- 无供应商锁定:PaperOffice LLM 将您绑定在 PaperOffice LLM 生态系统中。原生 LLM 与提供商无关
- 无需维护:原生 LLM API 不存在像 v0.6.1 中出现的原始OCR问题(GitHub Issue #621),即 PaperOffice LLM 突然只提供原始 OCR 文本而不是结构化分析等错误
PaperOffice LLM 本质上是 LLM 的包装器——当底层技术成熟时,包装器就会过时。
边界框问题:为什么纯文本不够
但是——这是关键点——PaperOffice LLM 和原生 LLM 都无法解决实际问题:企业文档处理需要的不仅仅是文本。
讽刺的是,PaperOffice LLM 在其博客中论证了这一点:"LLM API 不是完整的文档解析器":纯 LLM API 缺乏置信度分数、边界框和来源引用。但他们自己的解决方案在这里就有严重问题:
| 问题 | GitHub Issue | 状态 |
|---|---|---|
| 边界框高度不正确 | #368 | 自 2024 年 8 月起开放 |
| BBox 值 = None → Pydantic 崩溃 | #972 | 2025 年 10 月修复 |
| 表格使用默认值而非真实坐标 | #442 | 开放 |
| 图形提取在边缘情况下失败 | #528 | 开放 |
| 更新后提供原始 OCR 而非分析 | #621 | 开放 |
| 提取作业失败且无错误消息 | #1107 | 开放(2026 年 2 月) |
根本问题:没有精确的边界框,文档处理对企业应用程序毫无用处。为什么?
- 可搜索 PDF:没有坐标,无法创建不可见的文本层
- PII 删除:没有像素级定位,无法准确删除
- 审计追踪:没有来源引用,提取结果不可验证
- 人机协作:审查人员需要看到提取值的来源
表格、扫描件和企业需求
除了边界框问题,PaperOffice LLM 和纯 LLM 方法在额外的企业需求方面也失败:
表格识别:根据 APIScout 2026 基准测试,PaperOffice LLM 在复杂的多列表格、合并单元格和多页表格方面落后约 20%。Undatas 的独立深入分析确认:"PaperOffice LLM 在处理复杂表格方面存在显著困难,尤其是那些具有合并单元格或复杂标题的表格。"
扫描件和手写体:对于低分辨率的扫描件,准确性大幅下降。扫描中的公式识别?“非常不可靠。”手写体?根据官方功能矩阵,仅“部分”支持。
PaperOffice LLM 官方限制:
- 每页最多 35 张图像(其余被忽略)
- 每页最多 64KB 文本(其余被截断)
- 文件大小最大 512MB,提取限制为 100MB
- 每次提取作业最多 500 页
- 模式嵌套仅支持 7 层深
- extract_stateless 不支持 DOCX(GitHub #1077)
PaperOffice AI 相比之下:
- 800+ 个专用 LLM——每种文档类型一个
- 带行、列和合并单元格的表格识别——结构化导出
- 通过 AI Vision 识别手写体——签名、注释、表格
- OMR 识别——复选框、圆圈、标记及精确坐标
- 包含 QR 码和条形码识别
- 支持 139 种语言并自动检测
成本比较:信用分、美分和隐藏成本
PaperOffice LLM 使用基于信用分的定价模式。1,000 个信用分成本 1.25 美元。起初听起来很实惠,但很快就会累积:
| 功能 | PaperOffice LLM 信用分 | PaperOffice LLM 每页成本 | PaperOffice AI |
|---|---|---|---|
| 基础解析 | 1 信用分(快速) | $0.00125 | $0.01(AI-OCR) |
| 高质量解析 | 10–45 信用分 | $0.013–0.056 | $0.01(AI-OCR) |
| 高级代理 | 45–90 信用分 | $0.056–0.113 | $0.03(AI-AI-IDP) |
| 提取 | 5–60 信用分 | $0.006–0.075 | $0.03(AI-IDP,包含) |
在可比质量(高级/代理模式)下,PaperOffice AI 便宜 2–4 倍。此外:
- PaperOffice:边界框、可搜索 PDF、删除功能包含在内
- PaperOffice LLM:布局提取每页额外增加 3 个信用分
- PaperOffice:无信用分系统——透明的每页美分定价
- PaperOffice LLM:免费层级限制为每月 10,000 个信用分,之后按量付费且有上限
在每月 100,000 页的高级模式下:PaperOffice LLM = $5,625 对比 PaperOffice AI-IDP = $3,000。节省:47%。
PaperOffice AI:企业文档处理真正需要的
PaperOffice AI 采取与 PaperOffice LLM 根本不同的方法。它不是作为通用 LLM 的包装器,而是结合了三项专用技术:
1. OCR-LLM 融合:800+ 个专用、微调的 LLM——每个针对特定文档类型(如发票、合同、身份证、交货单)进行训练。没有通用的“一个模型适合所有”。
2. 边界框作为基础:每个识别元素——文本、表格、图像、手写体——都获得精确的像素坐标。这使能:
- 可搜索 PDF:原始扫描件 + 不可见的 LLM 文本层 = 可搜索、可复制、可归档
- PII 删除:精确的 GDPR 合规删除——不是文本搜索和替换,而是像素级准确删除
- 人机协作:点击提取值 → 立即看到其在原始文档中的位置
- 审计追踪:每个提取数据点均可追溯和验证
3. 零样本无需模板:无需模板、无需训练、无需规则。自然语言提示——用自然语言描述您想提取的内容。
除此之外:欧盟数据中心、GDPR 合规、可提供本地部署。虽然 PaperOffice LLM 强制所有内容进入云端(带 48 小时缓存!),但 PaperOffice 提供完整的数据主权。
| 功能 | PaperOffice LLM | 原生 LLM | PaperOffice AI |
|---|---|---|---|
| Markdown 输出 | ✅ | ✅ | ✅ |
| 边界框 | ⚠️ 有缺陷 | ❌ | ✅ 像素级精确 |
| 可搜索 PDF | ❌ | ❌ | ✅ |
| PII 删除 | ❌ | ❌ | ✅ |
| 表格(复杂) | ⚠️ ~80% | ⚠️ 可变 | ✅ 专用 |
| 手写体 | ⚠️ 部分 | ⚠️ 可变 | ✅ AI Vision |
| 本地部署 | ❌ | ❌ | ✅ |
| GDPR/欧盟服务器 | ❌ | ⚠️ | ✅ |
| 价格(企业) | $0.056–0.113 | 可变 | $0.01–0.03 |