Ce que promettent LlamaParse et LlamaExtract
LlamaParse et LlamaExtract, développés par LlamaIndex, figurent parmi les outils les plus reconnus dans l'écosystème du traitement de documents par intelligence artificielle. Leur promesse : convertir tout type de document — PDF, scans, formulaires — en texte Markdown structuré, optimisé pour les pipelines RAG et les applications basées sur les LLM.
LlamaParse propose différents modes d'analyse : Rapide (1 crédit/page), Équilibré (10 crédits), Premium (45 crédits) et Agentic Plus (90 crédits). LlamaExtract complète cette offre par une extraction de données basée sur un schéma : définissez un schéma JSON, et l'outil extrait des données structurées de vos documents.
À première vue, cela semble convaincant. Cependant, un examen plus attentif révèle des faiblesses fondamentales, ainsi qu'une question encore plus essentielle : Avons-nous encore besoin de ces outils ?
Pourquoi LlamaParse devient obsolète : Claude, GPT et consorts peuvent le faire eux-mêmes
Voici la vérité inconfortable pour LlamaIndex : Les LLM de vision modernes rendent LlamaParse superflu en tant que couche intermédiaire.
Claude 4, GPT-5, Gemini 2.5 Pro — tous ces modèles peuvent traiter les documents directement. Ils acceptent les PDF et les images en entrée, comprennent la mise en page, les tableaux et la structure, et fournissent une sortie structurée. Ce que LlamaParse offre via un pipeline complexe avec plusieurs modes d'analyse constitue une capacité native pour ces modèles.
LlamaIndex confirme lui-même cette tendance dans son propre blog : « Le niveau de base de l'analyse de documents en une seule étape par capture d'écran, grâce aux derniers modèles, s'est considérablement amélioré. » L'entreprise reconnaît que la précision de l'analyse purement effectuée par les LLM a considérablement augmenté.
Qu'est-ce que cela signifie en pratique ?
- Aucun intergiciel nécessaire : Pourquoi envoyer des documents via LlamaParse lorsque Claude les comprend directement ?
- Aucun système de crédits : Un seul appel API à Claude ou GPT coûte des jetons — pas de système de crédits propriétaire avec des niveaux tarifaires confus.
- Aucune dépendance à un fournisseur : LlamaParse vous lie à l'écosystème LlamaIndex. Les LLM natifs sont indépendants du fournisseur.
- Aucune maintenance : Des bugs tels que le problème d'OCR brut dans la version v0.6.1 (GitHub Issue #621), où LlamaParse ne fournissait soudainement que du texte OCR brut au lieu d'une analyse structurée, n'existent pas avec les API LLM natives.
LlamaParse est essentiellement un wrapper autour des LLM — et les wrappers deviennent obsolètes lorsque la technologie sous-jacente arrive à maturité.

Le problème des boîtes englobantes : pourquoi le texte brut ne suffit pas
Mais — et c'est là le point crucial — ni LlamaParse ni les LLM natifs ne résolvent le véritable problème : le traitement de documents en entreprise nécessite plus que du simple texte.
Ironiquement, LlamaIndex soutient lui-même dans son article de blog « Les API LLM ne sont pas des analyseurs de documents complets » exactement ce point : les API LLM pures manquent de scores de confiance, de boîtes englobantes et de citations de sources. Pourtant, leur propre solution présente des problèmes majeurs précisément sur ce point :
| Problème | Issue GitHub | Statut |
|---|---|---|
| Hauteur de la boîte englobante incorrecte | #368 | Ouvert depuis août 2024 |
| Valeurs BBox = None → plantage de Pydantic | #972 | Corrigé en octobre 2025 |
| Valeurs par défaut au lieu de coordonnées réelles pour les tableaux | #442 | Ouvert |
| L'extraction de figures échoue dans des cas limites | #528 | Ouvert |
| OCR brut au lieu d'une analyse après mise à jour | #621 | Ouvert |
| Échec des tâches d'extraction sans message d'erreur | #1107 | Ouvert (février 2026) |
Le problème fondamental : Sans boîtes englobantes exactes, le traitement de documents est inutile pour les applications d'entreprise. Pourquoi ?
- PDFs durchsuchbar: Ohne Koordinaten kann keine unsichtbare Textebene erstellt werden
- Schwärzung personenbezogener Daten (PII): Ohne pixelgenaue Positionierung kann nichts präzise geschwärzt werden
- Prüfpfade: Ohne Quellenreferenzen ist die Extraktion nicht verifizierbar
- Mensch im Loop: Prüfer müssen nachvollziehen können, woher ein extrahierter Wert stammt
Tabellen, Scans und Anforderungen von Unternehmen
Über die Probleme mit Begrenzungsrahmen hinaus scheitern sowohl LlamaParse als auch reine LLM-Ansätze an weiteren unternehmenskritischen Anforderungen:
Tabellenerkennung: Gemäß dem APIScout-Benchmark 2026 liegt LlamaParse bei komplexen mehrspaltigen Tabellen, zusammengeführten Zellen und seitenübergreifenden Tabellen ca. 20 % hinter spezialisierten Lösungen zurück. Eine unabhängige Tiefenanalyse von Undatas bestätigt: „LlamaParse hat erhebliche Schwierigkeiten mit komplexen Tabellen, insbesondere solchen mit zusammengeführten Zellen oder intricate Kopfzeilen."
Scans und Handschrift: Bei gescannten Dokumenten mit niedriger Auflösung sinkt die Genauigkeit drastisch. Formelerkennung in Scans? „Höchst unzuverlässig." Handschrift? Laut der offiziellen Feature-Matrix nur „teilweise" möglich.
Offizielle Einschränkungen von LlamaParse:
- Max. 35 Bilder pro Seite (der Rest wird ignoriert)
- Max. 64 KB Text pro Seite (der Rest wird abgeschnitten)
- Max. 512 MB Dateigröße, Extraktion nur bis 100 MB
- Max. 500 Seiten pro Extraktionsauftrag
- Schema-Nesting nur bis zu 7 Ebenen tief
- Keine DOCX-Unterstützung in extract_stateless (GitHub #1077)
PaperOffice AI im Vergleich:
- Über 800 spezialisierte LLMs – eines für jeden Dokumententyp
- Tabellenerkennung mit Zeilen, Spalten und zusammengeführten Zellen – strukturierter Export
- Handschrifterkennung via AI Vision – Unterschriften, Annotationen, Formulare
- OMR-Erkennung – Checkboxen, Kreise, Markierungen mit exakten Koordinaten
- QR-Code- und Barcode-Erkennung inklusive
- 139 Sprachen mit automatischer Erkennung

Kostenvergleich: Credits, Cent und versteckte Kosten
LlamaParse nutzt ein credit-basiertes Preismodell. 1.000 Credits kosten 1,25 $. Was zunächst erschwinglich erscheint, summiert sich schnell:
| Funktion | LlamaParse Credits | LlamaParse Kosten pro Seite | PaperOffice AI |
|---|---|---|---|
| Basis-Parsing | 1 Credit (Schnell) | 0,00125 $ | 0,01 $ (AI-OCR) |
| Qualitäts-Parsing | 10–45 Credits | 0,013–0,056 $ | 0,01 $ (AI-OCR) |
| Premium Agentic | 45–90 Credits | 0,056–0,113 $ | 0,03 $ (AI-AI-IDP) |
| Extraktion | 5–60 Credits | 0,006–0,075 $ | 0,03 $ (AI-IDP, inkl.) |
Bei vergleichbarer Qualität (Premium/Agentic-Modus) ist PaperOffice AI 2- bis 4-mal günstiger. Zusätzlich gilt:
- PaperOffice: Begrenzungsrahmen, durchsuchbare PDFs, Schwärzung inklusive
- LlamaParse: Layout-Extraktion kostet +3 Credits extra pro Seite
- PaperOffice: Kein Credit-System – transparentes Cent-pro-Seite-Preismodell
- LlamaParse: Kostenlose Stufe auf 10.000 Credits/Monat begrenzt, danach Pay-as-you-go mit Obergrenzen
Bei 100.000 Seiten/Monat im Premium-Modus: LlamaParse = 5.625 $ vs. PaperOffice AI-IDP = 3.000 $. Einsparung: 47 %.
PaperOffice AI: Was die Dokumentenverarbeitung für Unternehmen wirklich braucht
PaperOffice AI verfolgt einen grundlegend anderen Ansatz als LlamaParse. Anstatt als Wrapper um generische LLMs zu fungieren, kombiniert PaperOffice drei spezialisierte Technologien:
1. OCR-LLM-Fusion: Über 800 spezialisierte, feinabgestimmte LLMs – jedes trainiert auf spezifische Dokumententypen wie Rechnungen, Verträge, Ausweise, Lieferscheine. Kein generisches „Ein Modell für alle".
2. Begrenzungsrahmen als Grundlage: Jedes erkannte Element – Text, Tabelle, Bild, Handschrift – erhält exakte Pixelkoordinaten. Dies ermöglicht:
- PDFs durchsuchbar: Original-Scan plus unsichtbare LLM-Textebene = durchsuchbar, kopierbar, archivierbar
- Schwärzung personenbezogener Daten: Präzise, DSGVO-konforme Schwärzung – kein einfaches Suchen-und-Ersetzen von Text, sondern pixelgenaue Schwärzung
- Mensch im Loop: Klicken Sie auf einen extrahierten Wert, um sofort dessen Position im Originaldokument zu sehen
- Prüfpfade: Jeder extrahierte Datenpunkt ist nachvollziehbar und verifizierbar
3. Zero-Shot ohne Vorlagen: Keine Vorlagen, kein Training, keine Regeln. Natürliche Eingabe durch den Menschen – beschreiben Sie in natürlicher Sprache, was Sie extrahieren möchten.
Darüber hinaus: Rechenzentren in der EU, DSGVO-Konformität und On-Premise-Verfügbarkeit. Während LlamaParse alles in die Cloud zwingt (mit einem 48-Stunden-Cache!), bietet PaperOffice volle Datensouveränität.
| Funktion | LlamaParse | Native LLMs | PaperOffice AI |
|---|---|---|---|
| Markdown-Ausgabe | ✅ | ✅ | ✅ |
| Begrenzungsrahmen | ⚠️ Fehleranfällig | ❌ | ✅ Pixelgenau |
| Durchsuchbares PDF | ❌ | ❌ | ✅ |
| Schwärzung personenbezogener Daten | ❌ | ❌ | ✅ |
| Tabellen (komplex) | ⚠️ ~80 % | ⚠️ Variabel | ✅ Spezialisiert |
| Handschrift | ⚠️ Teilweise | ⚠️ Variabel | ✅ KI-Vision |
| On-Premise | ❌ | ❌ | ✅ |
| DSGVO/EU-Server | ❌ | ⚠️ | ✅ |
| Preis (Enterprise) | 0,056–0,113 $ | Variabel | 0,01–0,03 $ |