不只是阅读。 |
OCR 已成过去。 我们的 LLM 理解文档——提取文本,识别结构,提供边界框。Markdown 输出,适用于 RAG 就绪数据。
经典 OCR 已死。
文档智能,从 1 美分起。
无订阅。无基础费用。您只需支付您使用的——3 个套餐,满足各种需求。
Basic
快速文本识别
- 基于 LLM 的文本识别
- 139 种语言 + 自动检测
- Markdown 输出
- 置信度分数
- 无边界框
- 无可搜索 PDF
最适合:快速文本提取、电子邮件、简单文档
立即测试Premium
Bounding Boxes + QR/条形码
- 来自 Basic 的一切
- Bounding Boxes (pixel-accurate)
- QR 和条形码检测
- 无表格检测
- 无布局分析
- 无可搜索 PDF
最适合:基于坐标的工作流、信息隐藏、QR 扫描
立即测试Ultra
完整的文档智能
- 来自 Premium 的一切
- 表格检测(结构化)
- 布局检测 + 阅读顺序
- 可搜索 PDF(三明治 PDF)
- 手写识别
- 完整的文档智能
最适合:发票、合同、历史档案、可搜索 PDF
立即测试工作流程——每一次都如此
上传文档
PDF、扫描件、图像——任何格式
选择 OCR 套餐
基础版 · 高级版 · 至尊版
{
"text": "Rechnung #2024-0847",
"bbox": [112, 84, 186, 32],
"confidence": 1.0
} 结构化结果
Markdown + 边界框 + 可搜索 PDF
我们的对比
价格基于公开数据。通常为每页的入门级定价。
AI-OCR 实战演示
观看 PaperOffice AI-OCR 如何将文档转换为可搜索的 PDF、Markdown 和结构化文本——支持超过 120 种语言。
OCR 重塑:LLM + 边界框
传统的 OCR 只提供文本。我们的 LLM 理解文档——识别布局、表格、层级结构,并为每个元素提供精确坐标。非常适合 RAG、合规和验证。
经典 OCR 已死亡。
任何仍然依赖基于规则的、愚蠢的字符识别的人,都有可能在 AI 管道、会计和合规方面面临灾难性错误。
会计与财务
发票金额中一个“8”被误读为“3”就可能造成数千美元的损失。经典 OCR 没有上下文——它只是猜测。
$ 8,340.00$ 3,340.00合规与法律
错误的 IBAN 号码、混淆的合同数据、不正确的税号——一个 OCR 错误就可能导致罚款和法律纠纷。
DE89 3704 0044 O532DE89 3704 0044 0532AI 与AI-IDP管道
垃圾进,垃圾出。如果您的 AI 管道输入的是错误的 OCR 文本,所有后续决策都将毫无价值。LLM 无法将垃圾变成黄金。
医疗保健与医学
混淆的剂量、错误的患者数据、不正确的检查结果——在医学领域,错误的 OCR 可能危及生命。
剂量:15mg剂量:1.5mg削减 OCR 成本就是在错误的地方削减。
经典 OCR 盲目识别字符——没有上下文,没有理解,没有质量保证。基于 LLM 的 OCR 理解文档,识别连接并自动纠正错误。价格差异?几分钱。质量差异?天壤之别。
PaperOffice AI-OCR
能做什么
LLM + 边界框
其他 LLM 只提供文本。我们为每个识别的元素提供精确坐标——这是可搜索 PDF 和信息隐藏的基础。
可搜索 PDF
原始扫描件 + 隐藏的 LLM 文本层 = 可搜索、可复制、可归档。无人能做到。
可进行信息隐藏
得益于边界框:用于 GDPR 和合规的精确信息隐藏。 发现 PII 信息隐藏 →
QR 和条形码
自动检测QR 码、条形码、DataMatrix——非常适合发票、送货单、标签。
表格识别
识别具有行、列、合并单元格的复杂表格并将其结构化导出。
布局检测
页眉、页脚、列、段落、列表——完整的文档结构被识别。
手写体
手写笔记、签名、注释被可靠地识别和提取。
结构化 Markdown
非常适合 RAG 管道:层级、表格、列表——一切都干净地结构化。
139 种语言
从阿拉伯语到中文。自动检测,同一文档中混合多种语言。
为什么没有边界框的 OCR
毫无价值
许多 LLM 和 OCR 系统只提供“流式文本”——没有坐标。这就像一本没有页码的书:对专业应用毫无用处。
无边界框
其他提供商"John Smith, IBAN: DE89370400440532013000, 金额: 1,250.00 EUR" 这些信息来自哪里?什么位置?哪一页?
- 无溯源性——数据来自哪里?
- 无法进行信息隐藏——应该隐藏什么?
- 无搜索 PDF——文本漂浮在虚空中
- 无人工审核——用户无法验证
- 无验证——值是否与字段匹配?
有边界框
PaperOffice AI-OCR文字识别{
"text": "DE89...",
"label": "IBAN",
"bbox": [120, 340, 380, 365],
"page": 1,
"confidence": 1.0
} 精确位置、字段类型、页码、置信度!
- 100% 可溯源——点击值,查看原始文件
- 精确信息隐藏——自动隐藏 IBAN
- 真正的可搜索 PDF——文本精确覆盖图像
- 人工审核——用户点击、查看、验证、确认
- 自动验证——字段类型与值匹配
没有边界框是不可能的:
所有格式。所有来源。
扫描的 PDF
扫描文档,包括多页
图像文件
PNG, JPG, TIFF, BMP, WebP
Word / Office
包含图像的 DOCX, XLSX, PPTX
URL 和 HTML
网站截图
139 种语言。
一个 API。
自动语言检测、手动语言选择或混合多种语言——所有内容都在一个文档中。
模拟文档的
可搜索 PDF,无人能做到。
为什么? 其他 LLM(GPT-4V、Claude、Gemini)可以读取文本,但无法提供可靠的边界框。没有精确坐标 → 没有隐藏文本层 → 没有可搜索 PDF。
我们是唯一一家从扫描文档创建基于 LLM 的可搜索 PDF的提供商——可搜索、可复制、符合归档要求。
AI-OCR 用于什么?
数字化发票档案
将数千份扫描的发票转换为可搜索的档案。每张发票都经过索引并可查找。
合同管理
数字化历史合同,提取条款,创建可搜索 PDF 以满足合规要求。
解锁历史档案
将旧文件档案转换为可搜索的知识库。符合 GoBD 归档要求。
合规与审计
审计证明式数字化文档。边界框为每个提取的值提供证明。
RAG 管道
将文档转换为结构化 Markdown——非常适合作为 LLM 系统的输入。
GDPR 匿名化
使用边界框:对个人数据进行精确信息隐藏。 了解更多 →
所有格式。所有用例。
Markdown
用于 RAG、LLM 和文档的结构化输出。
JSON
包含边界框、置信度分数和元数据。
三明治 PDF
原始文件 + 隐藏文本层,用于归档。
纯文本
纯文本,用于简单处理。
一次 API 调用。您所需的一切。
这是“完整”模式返回的内容——市面上最全面的 OCR 响应。
{
"ocr_text": "Rechnung Nr. RE-2024-0847...",
"ocr_markdown": "# Rechnung\n| Pos | Artikel | Preis |\n...",
"bounding_boxes": [
{ "text": "RE-2024-0847", "bbox": [112, 84, 186, 32],
"confidence": 1.0, "page": 1 }
],
"table_data": [
{ "rows": 5, "cols": 4, "cells": [...] }
],
"layout_data": [
{ "type": "Header", "bbox": [0, 0, 595, 120] },
{ "type": "Table", "bbox": [40, 200, 555, 450] }
],
"language": "de",
"qr_barcode": [
{ "type": "QR", "data": "https://...", "bbox": [...] }
],
"summary": "Rechnung der Telekom AG über 1.234,56€",
"searchable_pdf": "base64://...",
"pages_processed": 3,
"processing_time_ms": 2847
} OCR 文本
完整的提取文本,并保留阅读顺序。
结构化 Markdown
标题、表格、列表——非常适合 RAG 管道。
边界框
每个文本元素的像素级精确坐标。
表格数据
结构化表格提取,包含行、列、单元格。
布局分析
页眉、页脚、表格、图像——完整的文档结构。
QR 和条形码
QR、条形码、DataMatrix 的自动检测及解码数据。
可搜索 PDF
原始文件上的隐藏文本层——符合归档要求。
手写识别
手写笔记和签名被可靠提取。
API 优先。几分钟内集成。
无需信用卡。无需取消。无附加条件。立即开始测试。 RESTful API,支持 OpenAPI 3.0、Webhooks 和完整的 Postman Collection。
# OCR with Bounding Boxes
curl -X POST https://api.paperoffice.ai/v1/ocr \
-H "Authorization: Bearer $API_KEY" \
-F "[email protected]" \
-F "mode=complete"
# Response
{
"confidence_avg": 1.0,
"markdown": "# Invoice\n**Vendor:** ...",
"bounding_boxes": [
{"text": "Invoice", "bbox": [112, 84, 186, 32]}
],
"searchable_pdf": "base64...",
"layout": ["Header", "Table", "Footer"]
} 您的数据。我们的责任。
欧盟数据中心
100% 自有基础设施在欧盟。无美国云。
端到端加密
静态 AES-256,传输 TLS 1.3。
认证 ISO 27001 与 SOC 2 Type II 认证进行中。可根据要求并在 NDA 下提供阶段性审计。
GDPR、SOC 2 Type II、ISO 27001、HIPAA。
自动删除
文档在处理后立即删除。
常见问题
什么是基于 LLM 的 OCR,它与传统 OCR 有何不同?
支持哪些文件格式?
什么是边界框,为什么我需要它们?
OCR 识别的准确率如何?
OCR 支持多少种语言?
OCR 处理的费用是多少?
我的文档处理安全吗?
我可以将 OCR API 集成到我自己的软件中吗?
可搜索 PDF 和 Markdown 输出之间有什么区别?
如何识别文档中的表格?
客户成功案例
了解企业如何通过PaperOffice AI转型业务流程。
可衡量的客户成功
"覆盖所有矿业运营的企业文档管理。世界一流。"
"FDA 监管的制药标签需要无缝文档。PaperOffice 将我们的审批流程从几天缩短到几小时。"
"技术文档和订单处理现已完全自动化。"
"数字化彻底改变了我们的行政管理。市民查询现在只需几分钟而非几天即可处理。"
"患者档案、诊断结果和转诊单被自动捕获和分类。我们的诊所团队终于有时间照顾患者了。"
"8,000 名员工,每天数千份客人文档。PaperOffice 将我们的后台流程完全数字化。"
"贷款申请和合规文件现在在几分钟内处理完毕,而不是几小时。监管审查完全自动化。"
"建设项目文档和合规现已数字化且可追溯。"
"入住表格、发票和客人沟通完全数字化。我们的礼宾团队现在专注于卓越服务。"
"来自 250 多个加油站的加油站结算、供应商文档和合规文件被自动处理和归档。"
"制药功能标签的 GMP 合规文档现在完全自动化。审计追踪无缝且可立即检索。"
"我们木屋的建筑图纸、许可证和客户档案现在集中管理。第六代终于实现无纸化。"
"全球数百家烘焙厂的供应商合同、证书和海关文件被自动捕获并分配给正确的产品。"
"温度证明、CMR 运单和食品证书被自动扫描并分配给订单。错误分配已成为历史。"
"重型运输许可证、路线计划和项目文档现在可立即数字检索。不再需要搜索文件夹。"
"我们东欧网络的海关文件、仓单和货运订单被自动分类。四代物流,终于数字化。"
"印刷规格、客户批准和材料证书现在可集中检索。生产错误率降至接近零。"
"可持续性证书、供应商合同和客户规格被自动处理。瑞士精度,现在也数字化了。"
"我们商业地产的建筑许可证、分包商合同和验收记录现在无缝数字化记录。"
"30 多年市场领先地位的购买合同、曝光表和客户档案现在可数字搜索。每位经纪人都能在几秒钟内找到所有内容。"
"海运文件、海关申报和提单被自动捕获。波罗的海物流从未如此高效。"
"每周数千个定制包装订单,包含设计批准、印刷数据和交付文件。PaperOffice 将所有内容整合在一起。"
"病理实验室文档和设备认证现在完全自动化。每个样本都有无缝的可追溯性。"
"信贷文件、担保文件和客户通信在几分钟内处理完毕,而不是几小时。监管审查无缝。"
"我们钢铁生产的技术规格、质量证书和回收协议可集中且立即检索。"
"带有监管要求的制药和化妆品标签规格被自动检查和批准。不再需要手动检查清单。"
"KYC 文件、投资报告和监管文件在几秒钟内分类。作为 MAS 监管的机器人顾问,无缝合规至关重要。"
"化学物流的安全数据表、运输许可证和 ADR 文件被自动分配。对错误零容忍。"
"我们珍珠系列的真品证书、供应商证明和客户保修被自动归档并可立即检索。"
"中小企业贷款申请、担保文件和监管报告被自动分类。我们的顾问有更多时间进行客户咨询。"
"来自 135 多年银行历史的客户档案正在逐步数字化。5,000 名员工现在可立即访问所有文档。"
"数百万客户的微贷申请和合规文件现在在几分钟内处理完毕,而不是几天。这是金融包容性的游戏规则改变者。"
"每天数十万份交货单和退货凭证被自动处理。越南领先的电子商务物流商,现在无纸化。"
"石油、天然气和航空项目的 CNC 制造协议、材料证书和客户规格现在无缝数字化记录。"
"2030 愿景需要完全数字化。PaperOffice 处理沙特阿拉伯数字骨干网的政府文件。"
"材料证书、硬化协议和客户规格被自动分配给正确的订单。澳大利亚唯一的 Q&T 制造商,现在无纸化。"
"焊缝协议、静力计算和项目计划被数字化管理。我们的车间团队可实时访问。"
"航空航天证书、CNC 程序和客户公差被自动分类。AS9100 合规从未如此简单。"
"数十万中小企业的经销商合同、KYC 文件和交易凭证在几秒钟内处理。墨西哥的支付革命,无纸化。"
"我们高地马尔贝克葡萄酒的收获文档、出口证书和质量协议被自动归档。120 年酿酒传统,现在数字化。"
"数百万用户验证和监管文件被完全自动处理。无纸化扩展。"
"非洲领先支付提供商的经销商入职文件和合规证明在几分钟内处理完毕,而不是几天。"
"数千种天然产品的有机证书、供应商审计和产品标签被自动检查和归档。"
"来自 33 个非洲国家的监管文件、合作伙伴合同和审计追踪被完全自动管理。面向 30 亿美元金融科技企业的企业 DMS。"
"处方和药物管理现已完全自动化。为患者腾出更多时间。"
"数百年历史的文件现在可以数字化搜索。这是我们历史档案的里程碑。"
"我们的护理人员终于有更多时间照顾居民,而非处理文书工作。"
"超过50万份档案已数字化。我们的工作人员现在能即时找到所有信息。"
"患者病历管理现在变得轻而易举。一切自动采集和归档。"
"遗产和遗嘱文件现在高效且无差错。"
"所有住宅小区的数字物业管理。租户和业主都非常满意。"
"使用 PaperOffice,我们的发票处理速度提高了 99%。AI 自动识别所有相关数据并正确分配。"
"PaperOffice 已成为我们日常工作不可或缺的一部分。订单、报价和发票现在自动运行。"
"我们的护理服务文档现在数字化且自动化。更多时间留给我们的患者。"
"技术图纸、物料清单和质量协议可立即找到。以前需要 30 分钟的搜索,现在只需 30 秒。"
"客户凭证、税务通知和年度财务报表被自动排序并分配给正确的客户。凭证混乱已成为过去。"
"我们 IT 咨询项目的项目文档、SLA 和客户通信被自动分类和归档。"
准备好使用基于 LLM 的 OCR 了吗?
2 分钟内开始。无需信用卡,无需安装。