Hvad LlamaParse og LlamaExtract lover
LlamaParse og LlamaExtract fra LlamaIndex hører til de mest kendte værktøjer i økosystemet for AI-dokumentbehandling. Deres løfte: at konvertere dokumenter af enhver art – PDF'er, scanninger, formularer – til struktureret Markdown-tekst, optimeret til RAG-pipelines og LLM-applikationer.
LlamaParse tilbyder forskellige parsing-tilstande: Hurtig (1 kredit/side), Afbalanceret (10 kreditter), Premium (45 kreditter) og Agentic Plus (90 kreditter). LlamaExtract kompletterer dette med skemabaseret dataekstraktion – definer et JSON-skema, og værktøjet ekstraherer strukturerede data fra Deres dokumenter.
Ved første øjekast lyder dette overbevisende. Men ved nærmere eftersyn viser sig fundamentale svagheder – sammen med et endnu mere grundlæggende spørgsmål: Har vi overhovedet brug for disse værktøjer længere?
Hvorfor LlamaParse bliver forældet: Claude, GPT og co. kan gøre det selv
Her er den ubehagelige sandhed for LlamaIndex: Moderne vision-LLM'er gør LlamaParse til et overflødigt mellemled.
Claude 4, GPT-5, Gemini 2.5 Pro – alle disse modeller kan behandle dokumenter direkte. De accepterer PDF'er og billeder som input, forstår layout, tabeller og struktur og leverer struktureret output. Det, som LlamaParse tilbyder som en kompleks pipeline med flere parsing-tilstande, er en indbygget kapacitet for disse modeller.
LlamaIndex bekræfter selv denne tendens i deres egen blog: "Grundlinjen for engangs-dokumentparsing via screenshots ved hjælp af de nyeste modeller er blevet væsentligt bedre." De anerkender, at nøjagtigheden af ren LLM-parsing er steget dramatisk.
Hvad betyder dette i praksis?
- Ingen mellemled nødvendige: Hvorfor sende dokumenter gennem LlamaParse, når Claude forstår dem direkte?
- Intet kreditsystem: Et enkelt API-kald til Claude eller GPT koster tokens – intet proprietært kreditsystem med forvirrende niveauer
- Ingen leverandørlåsning: LlamaParse binder Dem til LlamaIndex-økosystemet. Native LLM'er er uafhængige af udbyderen
- Ingen vedligeholdelse: Fejl som problemet med rå OCR i v0.6.1 (GitHub Issue #621), hvor LlamaParse pludselig kun leverede rå OCR-tekst i stedet for struktureret analyse, eksisterer ikke med native LLM-API'er
LlamaParse er i bund og grund en wrapper omkring LLM'er – og wrappers bliver overflødige, når den underliggende teknologi modnes.

Bounding Box-problemet: Hvorfor almindelig tekst ikke er nok
Men – og dette er det afgørende punkt – hverken LlamaParse eller native LLM'er løser det egentlige problem: Virksomheders dokumentbehandling kræver mere end blot tekst.
Ironisk nok argumenterer LlamaIndex selv i deres blog "LLM-API'er er ikke komplette dokumentparsere" for præcis dette: Rene LLM-API'er mangler konfidensscorer, bounding boxes og kildehenvisninger. Men deres egen løsning har massive problemer netop her:
| Problem | GitHub Issue | Status |
|---|---|---|
| Højden på bounding box er forkert | #368 | Åben siden august 2024 |
| BBox-værdier = None → Pydantic-nedbrud | #972 | Rettet oktober 2025 |
| Standardværdier i stedet for rigtige koordinater for tabeller | #442 | Åben |
| Ekstraktion af figurer fejler i særlige tilfælde | #528 | Åben |
| Rå OCR i stedet for analyse efter opdatering | #621 | Åben |
| Ekstraktionsjobs fejler uden fejlmeddelelse | #1107 | Åben (feb. 2026) |
Det fundamentale problem: Uden præcise bounding boxes er dokumentbehandling ubrugelig til enterprise-applikationer. Hvorfor?
- Gennemsøgbare PDF'er: Uden koordinater kan der ikke oprettes et usynligt tekstlag
- Redaktion af personoplysninger (PII): Uden pixelpræcis positionering kan intet redigeres nøjagtigt
- Revisionsspor: Uden kildehenvisninger er udtrækningen ikke verificerbar
- Mennesket i løkken: Anmeldere skal kunne se, hvor en udtrukken værdi stammer fra
Tabeller, scanninger og virksomhedskrav
Ud over problemer med afgrænsningsbokse fejler både LlamaParse og rene LLM-tilgange også i forhold til yderligere virksomhedskrav:
Genkendelse af tabeller: Ifølge APIScout-benchmarket fra 2026 ligger LlamaParse ca. 20 % bag specialiserede løsninger ved komplekse tabeller med flere kolonner, flettede celler og tabeller over flere sider. En uafhængig dybdegående analyse fra Undatas bekræfter: "LlamaParse har betydelige vanskeligheder med komplekse tabeller, især dem med flettede celler eller indviklede overskrifter."
Scanninger og håndskrift: Ved scannede dokumenter med lav opløsning falder nøjagtigheden drastisk. Genkendelse af formler i scanninger? "Meget upålidelig." Håndskrift? Kun "Delvis" ifølge den officielle funktionsmatrix.
Officielle begrænsninger for LlamaParse:
- Maks. 35 billeder pr. side (resten ignoreres)
- Maks. 64 KB tekst pr. side (resten afkortes)
- Maks. filstørrelse på 512 MB, udtrækning kun op til 100 MB
- Maks. 500 sider pr. udtrækningsjob
- Skema-nesting kun op til 7 niveauer dybt
- Ingen understøttelse af DOCX i extract_stateless (GitHub #1077)
PaperOffice AI derimod:
- 800+ specialiserede LLM'er – én for hver dokumenttype
- Genkendelse af tabeller med rækker, kolonner og flettede celler – struktureret eksport
- Genkendelse af håndskrift via AI Vision – underskrifter, annotationer, formularer
- OMR-genkendelse – afkrydsningsfelter, cirkler, markeringer med præcise koordinater
- Genkendelse af QR-koder og stregkoder inkluderet
- 139 sprog med automatisk detektering

Omkostningssammenligning: Credits, cent og skjulte omkostninger
LlamaParse anvender en credit-baseret prismodel. 1.000 credits koster $1,25. Hvad der indledningsvis lyder overkommeligt, løber hurtigt op:
| Funktion | LlamaParse Credits | LlamaParse Omkostning/side | PaperOffice AI |
|---|---|---|---|
| Grundlæggende parsing | 1 credit (Hurtig) | $0,00125 | $0,01 (AI-OCR) |
| Kvalitetsparsing | 10–45 credits | $0,013–0,056 | $0,01 (AI-OCR) |
| Premium Agentic | 45–90 credits | $0,056–0,113 | $0,03 (AI-AI-IDP) |
| Udtrækning | 5–60 credits | $0,006–0,075 | $0,03 (AI-IDP, inkl.) |
Ved sammenlignelig kvalitet (Premium/Agentic-tilstand) er PaperOffice AI 2–4 gange billigere. Derudover gælder:
- PaperOffice: Afgrænsningsbokse, gennemsøgbare PDF'er, redaktion inkluderet
- LlamaParse: Layout-udtrækning koster +3 credits ekstra pr. side
- PaperOffice: Intet credit-system – transparent pris pr. side i cent
- LlamaParse: Gratis niveau begrænset til 10.000 credits/måned, derefter pay-as-you-go med loft
Ved 100.000 sider/måned i Premium-tilstand: LlamaParse = $5.625 vs. PaperOffice AI-IDP = $3.000. Besparelse: 47 %.
PaperOffice AI: Hvad ægte virksomhedsdokumentbehandling kræver
PaperOffice AI anvender en fundamentalt anderledes tilgang end LlamaParse. I stedet for at fungere som et wrapper omkring generiske LLM'er, kombinerer PaperOffice tre specialiserede teknologier:
1. OCR-LLM-fusion: 800+ specialiserede, finjusterede LLM'er – hver trænet på specifikke dokumenttyper som fakturaer, kontrakter, ID-kort og følgesedler. Ingen generisk "én model passer til alt."
2. Afgrænsningsbokse som fundament: Hvert genkendt element – tekst, tabel, billede, håndskrift – får tildelt præcise pixelkoordinater. Dette muliggør:
- Søgbare PDF'er: Original scanning + usynligt LLM-tekstlag = søgbart, kopierbart, arkiverbart
- Redaktion af personoplysninger (PII): Præcis redaktion i overensstemmelse med GDPR – ikke tekstbaseret søg-og-erstat, men pixelnøjagtig redaktion
- Menneske-i-loopet: Klik på en udtrukket værdi → se øjeblikkeligt, hvor den fremgår i originalen
- Revisionsspor: Ethvert udtrukket datapunkt er sporbart og verificerbart
3. Zero-Shot uden skabeloner: Ingen skabeloner, ingen træning, ingen regler. Naturlig menneskelig promptning – beskriv på naturligt sprog, hvad De ønsker at udtrække.
Derudover: EU-datacentre, GDPR-kompatibilitet og tilgængelighed som on-premise-løsning. Mens LlamaParse tvinger alt over i skyen (med 48-timers cache!), tilbyder PaperOffice fuld datasuverænitet.
| Funktion | LlamaParse | Native LLM'er | PaperOffice AI |
|---|---|---|---|
| Markdown-output | ✅ | ✅ | ✅ |
| Begrænsningsbokse | ⚠️ Fejlbehæftet | ❌ | ✅ Pixelnøjagtig |
| Søgbar PDF | ❌ | ❌ | ✅ |
| PII-redaktion | ❌ | ❌ | ✅ |
| Tabeller (komplekse) | ⚠️ ~80 % | ⚠️ Varierende | ✅ Specialiseret |
| Håndskrift | ⚠️ Delvis | ⚠️ Varierende | ✅ AI Vision |
| On-premise | ❌ | ❌ | ✅ |
| GDPR/EU-servere | ❌ | ⚠️ | ✅ |
| Pris (enterprise) | $0,056–0,113 | Varierende | $0,01–0,03 |