PaperOffice LLM 와 PaperOffice LLM 의 약속
PaperOffice LLM 의 PaperOffice LLM 와 PaperOffice LLM 는 AI 문서 처리 생태계에서 가장 잘 알려진 도구 중 하나입니다. 그들의 약속은 PDF, 스캔 이미지, 양식 등 모든 종류의 문서를 구조화된 Markdown 텍스트로 변환하여 RAG 파이프라인 및 LLM 애플리케이션에 최적화하는 것입니다.PaperOffice LLM 는 다양한 파싱 모드를 제공합니다: Fast(1 크레딧/페이지), Balanced(10 크레딧), Premium(45 크레딧), 및 Agentic Plus(90 크레딧). PaperOffice LLM 은 스키마 기반 데이터 추출을 통해 이를 보완합니다. JSON 스키마를 정의하면 도구가 문서에서 구조화된 데이터를 추출합니다.처음에는 설득력이 있어 보이지만, 자세히 살펴보면 근본적인 약점이 드러납니다. 더 근본적인 질문도 제기됩니다: 우리는 이제 이런 도구를 정말로 필요로 할까요?
PaperOffice LLM 가 왜 구식이 되고 있는지: PaperOffice LLM, GPT 등 스스로 할 수 있습니다
PaperOffice LLM 에 대한 불편한 진실은 현대적인 비전 LLM 이 PaperOffice LLM 를 불필요한 중간 계층으로 만듭니다.PaperOffice LLM 4, PaperOffice LLM, PaperOffice LLM 2.5 Pro — 이 모든 모델은 문서를 직접 처리할 수 있습니다. PDF 와 이미지를 입력으로 받아들이고 레이아웃, 표 및 구조를 이해하며 구조화된 출력을 제공합니다. PaperOffice LLM 가 제공하는 복잡한 파이프라인과 여러 파싱 모드는 이러한 모델들의 기본 기능입니다.
PaperOffice LLM 는 자체 블로그에서 이 경향을 확인했습니다: “최신 모델을 사용한 스크린샷을 통한 원샷 문서 파싱의 기준선이 크게 개선되었습니다.” 그들은 순수 LLM 파싱의 정확도가 급격히 증가했다고 인정합니다.실제로 어떤 의미인가?
- 중간웨어 불필요: PaperOffice LLM 가 직접 이해할 수 있는 문서를 PaperOffice LLM 를 통해 보내는 이유는 무엇입니까?
- 신용점 시스템 없음: PaperOffice LLM 나 GPT 에 대한 단일 API 호출은 토큰 비용을 발생시키며, 혼란스러운 계층 수준의 독점 신용점 시스템이 없습니다.
- 벤더 종속성 없음: PaperOffice LLM 는 PaperOffice LLM 생태계에 종속되게 합니다. 네이티브 LLM 은 공급업체와 무관합니다.
- 유지보수 불필요: v0.6.1 버전의 원시 OCR 문제 (GitHub Issue #621) 와 같이 PaperOffice LLM 가 갑자기 구조화된 분석 대신 원시 OCR 텍스트만 제공하는 것과 같은 버그는 네이티브 LLM API 에서는 존재하지 않습니다.
PaperOffice LLM 는 LLM 을 감싸는 래퍼에 불과하며, 기본 기술이 성숙해지면 래퍼는 쓸모없어집니다.
바운딩 박스 문제: 평범한 텍스트만으로는 부족함
하지만 — 이것이 핵심입니다 — PaperOffice LLM 나 네이티브 LLM 들도 실제 문제를 해결하지 못합니다: 기업 문서 처리에는 텍스트 이상의 것이 필요합니다.
역설적으로 PaperOffice LLM 는 자체 블로그 “LLM API 는 완전한 문서 파서가 아닙니다”에서 정확히 이 점을 주장합니다. 순수 LLM API 는 신뢰도 점수, 경계 상자 및 출처 인용이 부족합니다. 그러나 그들의 자체 솔루션은 바로 여기에서 심각한 문제가 있습니다:| 문제 | GitHub 이슈 | 상태 |
|---|---|---|
| 바운딩 박스 높이 불일치 | #368 | 2024 년 8 월부터 열려 있음 |
| BBox 값이 None 이면 Pydantic 충돌 | #972 | 2025 년 10 월 수정됨 |
| 테이블에 대한 기본값 대신 실제 좌표 사용 | #442 | 열려 있음 |
| 경계 사례에서 그림 추출 실패 | #528 | 열려 있음 |
| 업데이트 후 분석 대신 원본 OCR 사용 | #621 | 열려 있음 |
| 오류 메시지 없이 추출 작업 실패 | #1107 | 2026 년 2 월까지 열려 있음 |
근본적인 문제: 정확한 바운딩 박스가 없으면 문서 처리는 기업용 애플리케이션에 무용지물입니다. 왜 그럴까요?
- 검색 가능한 PDF: 좌표가 없으면 보이지 않는 텍스트 레이어를 생성할 수 없습니다
- 개인정보 삭제: 픽셀 정밀 위치 지정이 없으면 정확하게 삭제할 수 없습니다
- 감사 추적: 출처 참조가 없으면 추출이 검증되지 않습니다
- 인간이 개입: 검토자는 추출된 값의 출처를 확인해야 합니다
표, 스캔 및 기업 요구사항
<보운딩 박스 문제를 넘어, PaperOffice LLM 와 순수 LLM 접근 방식 모두 추가적인 기업 요구 사항을 충족하지 못합니다:>표 인식: APIScout 벤치마크 2026 에 따르면, PaperOffice LLM 는 복잡한 다열 표, 병합된 셀 및 다중 페이지 표에서 전문 솔루션보다 약 20% 뒤쳐집니다. Undatas 의 독립적인 심층 분석은 이를 확인했습니다: "PaperOffice LLM 는 병합된 셀이나 복잡한 헤더가 있는 복잡한 표에서 특히 어려움을 겪습니다."
스캔 및 필기: 저해상도 스캔 문서의 경우 정확도가 급격히 떨어집니다. 스캔 내의 공식식 인식은? "매우 신뢰할 수 없습니다." 필기? 공식 기능 매트릭스에 따르면 "부분적"일 뿐입니다.
공식 PaperOffice LLM 제한 사항:
- 페이지당 최대 35 개의 이미지 (나머지는 무시됨)
- 페이지당 최대 64KB 텍스트 (나머지는 잘림됨)
- 파일 크기 최대 512MB, 추출은 최대 100MB
- 추출 작업당 최대 500 페이지
- 스키마 중첩은 최대 7 단계 깊이
- extract_stateless 에 DOCX 지원 없음 (GitHub #1077)
PaperOffice AI 대비:
- 800 개 이상의 전문 LLM — 각 문서 유형마다 하나
- 행, 열, 병합 셀을 갖춘 표 인식 — 구조화된 내보내기
- AI Vision 을 통한 필기체 인식 — 서명, 주석, 양식
- OMR 인식 — 체크박스, 원, 표시 및 정확한 좌표
- QR 코드 및 바코드 인식 포함
- 자동 감지 지원 139 개 언어
비용 비교: 크레딧, 센트 및 숨겨진 비용
PaperOffice LLM 는 신용 기반 가격 모델을 사용합니다. 1,000 개 신용의 비용은 1.25 달러입니다. 처음에는 합리적으로 보일 수 있지만 비용은 빠르게 누적됩니다.| 기능 | PaperOffice LLM 크레딧 | PaperOffice LLM 비용/페이지 | PaperOffice AI |
|---|---|---|---|
| 기본 파싱 | 1 크레딧 (빠름) | $0.00125 | $0.01 (AI-OCR) |
| 품질 파싱 | 10–45 크레딧 | $0.013–0.056 | $0.01 (AI-OCR) |
| 프리미엄 에이전트 | 45–90 크레딧 | $0.056–0.113 | $0.03 (AI-IDP) |
| 추출 | 5–60 크레딧 | $0.006–0.075 | $0.03 (AI-IDP 포함) |
비교 가능한 품질 (프리미엄/에이전트 모드) 에서 PaperOffice AI 는 2~4 배 더 저렴합니다. 또한:
- PaperOffice: 경계 상자, 검색 가능한 PDF, 포함된 삭제 기능
- PaperOffice LLM: 레이아웃 추출 비용은 페이지당 3 크레딧 추가
- PaperOffice: 크레딧 시스템 없음 — 투명한 페이지당 센트 가격 책정
- PaperOffice LLM: 무료 티어는 월 10,000 크레딧 제한, 이후 상한선이 있는即用即付
월 100,000 페이지 프리미엄 모드 기준: PaperOffice LLM = $5,625 vs. PaperOffice AI-IDP = $3,000. 절감액: 47%.
PaperOffice AI: 기업 문서 처리가 진정으로 필요한 것
1. OCR-LLM 융합: 800 개 이상의 전문화되고 미세 조정된 LLM — 각 LLM 은 송장, 계약서, 신분증, 배송지시서와 같은 특정 문서 유형에 대해 훈련됨. 범용적인 '하나의 모델로 모든 것을 해결'은 없습니다.
2. 경계 상자를 기반으로: 인식된 모든 요소 — 텍스트, 표, 이미지, 필기체 — 에 정확한 픽셀 좌표가 할당됩니다. 이는 다음을 가능하게 합니다:
- 검색 가능한 PDF: 원본 스캔 + 보이지 않는 LLM 텍스트 레이어 = 검색 가능, 복사 가능, 보관 가능
- 개인정보 삭제: GDPR 준수 정밀 삭제 — 텍스트 검색 및 치환이 아닌 픽셀 정확한 삭제
- 인간 참여: 추출된 값 클릭 → 즉시 원본에서 해당 위치 확인
- 감사 추적: 모든 추출 데이터 포인트 추적 및 검증 가능
3. 템플릿 없는 제로샷: 템플릿, 학습, 규칙 없이. 자연어 프롬프팅 — 원하는 추출 내용을 자연어로 설명하세요.
또한: EU 데이터 센터, GDPR 준수, 온프레미스 제공. PaperOffice LLM 는 모든 것을 클라우드에 강제하는 반면 (48 시간 캐시!), PaperOffice 는 완전한 데이터 주권을 제공합니다.| 기능 | PaperOffice LLM | 네이티브 LLM | PaperOffice AI |
|---|---|---|---|
| 마크다운 출력 | ✅ | ✅ | ✅ |
| 바운딩 박스 | ⚠️ 버그 있음 | ❌ | ✅ 픽셀 정밀 |
| 검색 가능한 PDF | ❌ | ❌ | ✅ |
| PII 삭제 | ❌ | ❌ | ✅ |
| 표 (복잡한) | ⚠️ ~80% | ⚠️ 변수 | ✅ 전문화 |
| 손글씨 | ⚠️ 부분적 | ⚠️ 변수 | ✅ AI 비전 |
| 온프레미스 | ❌ | ❌ | ✅ |
| GDPR/EU 서버 | ❌ | ⚠️ | ✅ |
| 가격 (엔터프라이즈) | $0.056–0.113 | 변수 | $0.01–0.03 |