Cosa promettono LlamaParse e LlamaExtract
LlamaParse e LlamaExtract, derivati da LlamaIndex, sono tra gli strumenti più noti nell'ecosistema di elaborazione dei documenti basato sull'IA. La loro promessa: convertire documenti di qualsiasi tipo — PDF, scansioni, moduli — in testo Markdown strutturato, ottimizzato per pipeline RAG e applicazioni LLM.
LlamaParse offre diversi modalità di parsing: Fast (1 credito per pagina), Balanced (10 crediti), Premium (45 crediti) e Agentic Plus (90 crediti). LlamaExtract integra questa funzionalità con l'estrazione dati basata su schemi — definendo uno schema JSON, lo strumento estrae dati strutturati dai documenti.
A prima vista, questo sembra promettente. Tuttavia, un esame più attento rivela debolezze fondamentali — e pone persino una domanda ancora più fondamentale: Avremmo ancora bisogno di questi strumenti?
Perché LlamaParse sta diventando obsoleto: Claude, GPT e simili possono farlo da soli
Ecco la verità scomoda per LlamaIndex: I moderni LLM visionari rendono LlamaParse uno strato middleware ridondante.
Claude 4, GPT-5, Gemini 2.5 Pro — tutti questi modelli possono elaborare documenti direttamente. Accettano PDF e immagini come input, comprendono layout, tabelle e struttura, e restituiscono output strutturato. Ciò che LlamaParse offre come pipeline complessa con diverse modalità di parsing è una capacità nativa per questi modelli.
LlamaIndex stessi confermano questa tendenza nel proprio blog: «La baseline del parsing one-shot di documenti tramite screenshot utilizzando i modelli più recenti è migliorata notevolmente.» Riconoscono che l'accuratezza del parsing puro tramite LLM è aumentata drasticamente.
Cosa significa questo nella pratica?
- Nessun middleware necessario: Perché inviare documenti attraverso LlamaParse quando Claude li comprende direttamente?
- Nessun sistema a crediti: Una singola chiamata API a Claude o GPT costa token — nessun sistema proprietario a crediti con livelli confusi
- Nessun vendor lock-in: LlamaParse vincola all'ecosistema LlamaIndex. I LLM nativi sono agnostici rispetto al fornitore
- Nessuna manutenzione: Bug come il problema raw OCR nella versione 0.6.1 (GitHub Issue #621), dove LlamaParse improvvisamente restituiva solo testo OCR grezzo invece di un'analisi strutturata, non esistono con le API LLM native
LlamaParse è essenzialmente un wrapper attorno ai LLM — e i wrapper diventano obsoleti quando la tecnologia sottostante matura.

Il problema delle Bounding Box: Perché il testo semplice non basta
Tuttavia — e questo è il punto cruciale — né LlamaParse né i LLM nativi risolvono il problema reale: l'elaborazione dei documenti in ambito enterprise necessita di più del semplice testo.
Ironia della sorte, LlamaIndex stessi argomentano nel proprio blog «Le API LLM non sono parser di documenti completi» esattamente questo: le API LLM pure mancano di punteggi di confidenza, bounding box e citazioni delle fonti. Ma la loro stessa soluzione presenta problemi enormi proprio qui:
| Problema | GitHub Issue | Stato |
|---|---|---|
| Altezza bounding box errata | #368 | Aperto da agosto 2024 |
| Valori BBox = None → crash Pydantic | #972 | Risolto ottobre 2025 |
| Valori predefiniti invece di coordinate reali per tabelle | #442 | Aperto |
| L'estrazione delle figure fallisce nei casi limite | #528 | Aperto |
| OCR grezzo invece di analisi dopo l'aggiornamento | #621 | Aperto |
| I lavori di estrazione falliscono senza messaggio di errore | #1107 | Aperto (febbraio 2026) |
Il problema fondamentale: Senza bounding box esatti, l'elaborazione dei documenti è inutile per le applicazioni enterprise. Perché?
- PDFs ricercabili: Senza coordinate, non è possibile creare uno strato di testo invisibile
- Censura dei dati PII: Senza posizionamento preciso al livello del pixel, non è possibile effettuare una censura accurata
- Tracce di audit: Senza riferimenti alla fonte, l'estrazione non è verificabile
- Uomo nel ciclo: I revisori devono vedere da dove proviene un valore estratto
Tabelle, Scansioni e Requisiti Enterprise
Oltre ai problemi relativi alle caselle di delimitazione, sia LlamaParse che gli approcci basati esclusivamente su LLM falliscono nei requisiti aggiuntivi per le aziende:
Riconoscimento delle tabelle: Secondo il benchmark APIScout del 2026, LlamaParse è indietro di ~20% rispetto alle soluzioni specializzate per tabelle complesse a più colonne, celle fuse e tabelle su più pagine. Un'analisi approfondita indipendente da Undatas conferma: "LlamaParse ha difficoltà significative con le tabelle complesse, in particolare quelle con celle fuse o intestazioni intricate."
Scansioni e scrittura a mano: Con documenti scansionati a bassa risoluzione, l'accuratezza cala drasticamente. Il riconoscimento delle formule nelle scansioni? "Molto inaffidabile." La scrittura a mano? Solo "Parziale" secondo la matrice delle funzionalità ufficiale.
Limitazioni ufficiali di LlamaParse:
- Max. 35 immagini per pagina (il resto viene ignorato)
- Max. 64 KB di testo per pagina (il resto viene troncato)
- Max. 512 MB di dimensione file, estrazione solo fino a 100 MB
- Max. 500 pagine per lavoro di estrazione
- Nesting dello schema solo fino a 7 livelli
- Nessun supporto per DOCX in extract_stateless (GitHub #1077)
PaperOffice AI al contrario:
- Oltre 800 LLM specializzati — uno per ogni tipo di documento
- Riconoscimento delle tabelle con righe, colonne e celle fuse — esportazione strutturata
- Riconoscimento della scrittura a mano tramite AI Vision — firme, annotazioni, moduli
- Riconoscimento OMR — caselle di controllo, cerchi, segni con coordinate esatte
- Riconoscimento QR e codici a barre incluso
- 139 lingue con rilevamento automatico

Il Confronto dei Costi: Crediti, Centesimi e Costi Nascosti
LlamaParse utilizza un modello di pricing basato su crediti. 1.000 crediti costano 1,25 $. Ciò che inizialmente sembra accessibile si somma rapidamente:
| Funzione | Crediti LlamaParse | Costo LlamaParse/Pagina | PaperOffice AI |
|---|---|---|---|
| Parsing di base | 1 credito (Veloce) | 0,00125 $ | 0,01 $ (AI-OCR) |
| Parsing di qualità | 10–45 crediti | 0,013–0,056 $ | 0,01 $ (AI-OCR) |
| Premium Agentic | 45–90 crediti | 0,056–0,113 $ | 0,03 $ (AI-AI-IDP) |
| Estrazione | 5–60 crediti | 0,006–0,075 $ | 0,03 $ (AI-IDP, incluso) |
A parità di qualità (modalità Premium/Agentic), PaperOffice AI costa 2–4 volte meno. Inoltre:
- PaperOffice: Caselle di delimitazione, PDF ricercabile, censura inclusi
- LlamaParse: L'estrazione del layout costa +3 crediti extra per pagina
- PaperOffice: Nessun sistema a crediti — pricing trasparente al centesimo per pagina
- LlamaParse: Piano gratuito limitato a 10.000 crediti/mese, poi pay-as-you-go con limiti
A 100.000 pagine/mese in modalità Premium: LlamaParse = 5.625 $ vs. PaperOffice AI-IDP = 3.000 $. Risparmio: 47%.
PaperOffice AI: Ciò che l'Elaborazione dei Documenti Enterprise ha davvero bisogno
PaperOffice AI adotta un approccio fondamentalmente diverso rispetto a LlamaParse. Invece di agire come un wrapper attorno a LLM generici, PaperOffice combina tre tecnologie specializzate:
1. Fusione OCR-LLM: Oltre 800 LLM specializzati e affinati — ciascuno addestrato su tipi specifici di documenti come fatture, contratti, ID, note di consegna. Nessun generico "un modello per tutti".
2. Caselle di delimitazione come fondamento: Ogni elemento riconosciuto — testo, tabella, immagine, scrittura a mano — riceve coordinate pixel esatte. Questo abilita:
- PDFs ricercabili: Scansione originale + strato di testo invisibile LLM = PDF ricercabili, copiabili e archiviabili
- Censura PII: Censura precisa conforme al GDPR — non sostituzione testo per testo, ma censura a livello di pixel
- Umano nel ciclo: Cliccare su un valore estratto → vedere immediatamente dove appare nell'originale
- Tracce di audit: Ogni punto dati estratto è tracciabile e verificabile
3. Zero-Shot senza modelli: Nessun modello, nessuna formazione, nessuna regola. Prompting umano naturale — descrivere in linguaggio naturale ciò che si desidera estrarre.
Inoltre: data center UE, conformi al GDPR, disponibili on-premise. Mentre LlamaParse forza tutto nel cloud (con cache di 48 ore!), PaperOffice offre piena sovranità dei dati.
| Caratteristica | LlamaParse | LLM nativi | PaperOffice AI |
|---|---|---|---|
| Output Markdown | ✅ | ✅ | ✅ |
| Scatole di delimitazione | ⚠️ Difettoso | ❌ | ✅ Preciso a livello di pixel |
| PDF ricercabile | ❌ | ❌ | ✅ |
| Censura PII | ❌ | ❌ | ✅ |
| Tabelle (complesse) | ⚠️ ~80% | ⚠️ Variabile | ✅ Specializzato |
| Scrittura a mano | ⚠️ Parziale | ⚠️ Variabile | ✅ Visione AI |
| On-premise | ❌ | ❌ | ✅ |
| Server UE/GDPR | ❌ | ⚠️ | ✅ |
| Prezzo (enterprise) | $0,056–0,113 | Variabile | $0,01–0,03 |