Što obećavaju PaperOffice LLM i PaperOffice LLM
PaperOffice LLM i PaperOffice LLM tvrtke PaperOffice LLM među najpoznatijim su alatima u ekosustavu AI obrade dokumenata. Njihovo obećanje: pretvoriti dokumente bilo koje vrste — PDF-ove, skenove, obrasce — u strukturirani Markdown tekst, optimiziran za RAG pipelineove i LLM aplikacije.
PaperOffice LLM nudi različite načine parsiranja: Fast (1 kredit/stranica), Balanced (10 kredita), Premium (45 kredita) i Agentic Plus (90 kredita). PaperOffice LLM to nadopunjuje ekstrakcijom podataka temeljenom na shemi — definirate JSON shemu, a alat iz vaših dokumenata izdvaja strukturirane podatke.
Na prvi pogled, to zvuči uvjerljivo. No pri detaljnijem pregledu pojavljuju se temeljne slabosti — uz još temeljnije pitanje: Treba li nam to uopće još uvijek?
Zašto PaperOffice LLM postaje zastario: Claude, GPT i ostali to mogu sami
Evo neugodne istine za PaperOffice LLM: moderni vision LLM-ovi čine PaperOffice LLM suvišnim middleware slojem.
Claude 4, PaperOffice LLM, Gemini 2.5 Pro — svi ti modeli mogu izravno obrađivati dokumente. Prihvaćaju PDF-ove i slike kao ulaz, razumiju raspored, tablice i strukturu te isporučuju strukturirani izlaz. Ono što PaperOffice LLM nudi kao složen pipeline s više načina parsiranja za ove modele predstavlja izvornu sposobnost.
PaperOffice LLM i sami potvrđuju ovaj trend u vlastitom blogu: “The baseline of one-shot document parsing through screenshotting using the latest models has gotten much better.” Priznaju da je točnost čistog LLM parsiranja dramatično porasla.
Što to znači u praksi?
- Nije potreban middleware: Zašto slati dokumente kroz PaperOffice LLM kada ih Claude razumije izravno?
- Nema kreditnog sustava: Jedan API poziv prema Claude ili PaperOffice LLM košta tokene — bez vlasničkog kreditnog sustava i zbunjujućih razina paketa
- Nema vendor lock-ina: PaperOffice LLM vas veže za ekosustav PaperOffice LLM Izvorni LLM-ovi su neovisni o pružatelju
- Nema održavanja: Greške poput problema s neobrađenim OCR-om u v0.6.1 (GitHub Issue #621), gdje je PaperOffice LLM odjednom isporučivao samo sirovi OCR tekst umjesto strukturirane analize, ne postoje kod izvornih LLM API-ja
PaperOffice LLM je u biti omotač oko LLM-ova — a omotači postaju zastarjeli kada temeljna tehnologija sazrije.
Problem bounding boxa: zašto običan tekst nije dovoljan
Ali — i to je ključna stvar — ni PaperOffice LLM ni izvorni LLM-ovi ne rješavaju stvarni problem: Enterprise obrada dokumenata treba više od teksta.
Ironično, PaperOffice LLM i sami u svom blogu “LLM APIs Aren’t Complete Document Parsers” tvrde upravo to: čisti LLM API-ji nemaju confidence scoreove, bounding boxove i citate izvora. No njihovo vlastito rješenje upravo ovdje ima velike probleme:
| Problem | GitHub Issue | Status |
|---|---|---|
| Pogrešna visina bounding boxa | #368 | Otvoreno od kol 2024. |
| BBox vrijednosti = None → Pydantic rušenje | #972 | Ispravljeno lis 2025. |
| Zadane vrijednosti umjesto stvarnih koordinata za tablice | #442 | Otvoreno |
| Ekstrakcija slika ne uspijeva u rubnim slučajevima | #528 | Otvoreno |
| Sirovi OCR umjesto analize nakon nadogradnje | #621 | Otvoreno |
| Ekstrakcijski zadaci padaju bez poruke o grešci | #1107 | Otvoreno (velj 2026.) |
Temeljni problem: bez točnih bounding boxova obrada dokumenata beskorisna je za poslovne aplikacije. Zašto?
- Pretraživi PDF-ovi: Bez koordinata nije moguće stvoriti nevidljivi tekstualni sloj
- Redakcija PII-ja: Bez pozicioniranja preciznog do piksela ništa se ne može točno anonimizirati
- Audit trailovi: Bez referenci na izvor, ekstrakcija nije provjerljiva
- Human-in-the-Loop: Recenzenti moraju vidjeti odakle je izvučena vrijednost
Tablice, skenovi i Enterprise zahtjevi
Osim problema s bounding boxovima, i PaperOffice LLM i čisti LLM pristupi ne zadovoljavaju dodatne poslovne zahtjeve:
Prepoznavanje tablica: Prema APIScout benchmarku 2026, PaperOffice LLM zaostaje ~20% za specijaliziranim rješenjima kod složenih višekolonskih tablica, spojenih ćelija i višestraničnih tablica. Neovisni dubinski pregled tvrtke Undatas potvrđuje: “PaperOffice LLM se znatno muči sa složenim tablicama, osobito onima sa spojenim ćelijama ili složenim zaglavljima.”
Skenovi i rukopis: Kod skeniranih dokumenata niske rezolucije točnost dramatično pada. Prepoznavanje formula u skenovima? “Vrlo nepouzdano.” Rukopis? Prema službenoj matrici značajki samo “Djelomično”.
Službena ograničenja PaperOffice LLM:
- Najviše 35 slika po stranici (ostatak se ignorira)
- Najviše 64 KB teksta po stranici (ostatak se skraćuje)
- Najviše 512 MB veličine datoteke, za ekstrakciju samo 100 MB
- Najviše 500 stranica po ekstrakcijskom zadatku
- Ugniježđivanje sheme samo 7 razina duboko
- Nema DOCX podrške u extract_stateless (GitHub #1077)
PaperOffice AI nasuprot tome:
- 800+ specijaliziranih LLM-ova — jedan za svaku vrstu dokumenta
- Prepoznavanje tablica s redovima, stupcima, spojenim ćelijama — strukturirani izvoz
- Prepoznavanje rukopisa putem AI Visiona — potpisi, bilješke, obrasci
- OMR prepoznavanje — kućice za označavanje, krugovi, oznake s točnim koordinatama
- Uključeno prepoznavanje QR i barkodova
- 139 jezika s automatskim prepoznavanjem
Usporedba troškova: Credits, centi i skriveni troškovi
PaperOffice LLM koristi model cijena temeljen na kreditima. 1.000 kredita košta 1,25 USD. Ono što u početku zvuči povoljno brzo se zbraja:
| Funkcija | PaperOffice LLM Credits | Trošak PaperOffice LLM/stranici | PaperOffice AI |
|---|---|---|---|
| Basic parsiranje | 1 kredit (Fast) | 0,00125 USD | 0,01 USD (AI-OCR) |
| Kvalitetno parsiranje | 10–45 kredita | 0,013–0,056 USD | 0,01 USD (AI-OCR) |
| Premium Agentic | 45–90 kredita | 0,056–0,113 USD | 0,03 USD (AI-AI-IDP) |
| Ekstrakcija | 5–60 kredita | 0,006–0,075 USD | 0,03 USD (AI-IDP, uključeno) |
Uz usporedivu kvalitetu (Premium/Agentic način), PaperOffice AI je 2–4× jeftiniji. Dodatno:
- PaperOffice: Bounding boxovi, pretraživi PDF, redakcija uključeni
- PaperOffice LLM: Ekstrakcija rasporeda košta dodatna 3 kredita po stranici
- PaperOffice: Nema kreditnog sustava — transparentno određivanje cijene po stranici u centima
- PaperOffice LLM: Besplatni sloj ograničen na 10.000 kredita mjesečno, nakon toga plaćanje po potrošnji s ograničenjima
Na 100.000 stranica mjesečno u Premium načinu: PaperOffice LLM = 5.625 USD naspram PaperOffice AI-IDP = 3.000 USD. Ušteda: 47%.
PaperOffice AI: Ono što Enterprise obrada dokumenata zaista treba
PaperOffice AI koristi temeljno drugačiji pristup od PaperOffice LLM Umjesto da djeluje kao omotač oko generičkih LLM-ova, PaperOffice kombinira tri specijalizirane tehnologije:
1. OCR-LLM fuzija: 800+ specijaliziranih, fino prilagođenih LLM-ova — svaki treniran na specifičnim vrstama dokumenata kao što su računi, ugovori, osobne iskaznice, otpremnice. Nema generičkog “jedan model za sve.”
2. Bounding boxovi kao temelj: Svaki prepoznati element — tekst, tablica, slika, rukopis — dobiva točne koordinatne vrijednosti u pikselima. To omogućuje:
- Pretraživi PDF-ovi: Izvorni sken + nevidljivi LLM tekstualni sloj = pretraživo, kopirljivo, arhivirano
- Redakcija PII-ja: Precizna GDPR-usklađena redakcija — ne tekstualna zamjena, nego redakcija točna do piksela
- Human-in-the-Loop: Kliknite na izvučenu vrijednost → odmah vidite gdje se pojavljuje u izvorniku
- Audit trailovi: Svaka izvučena podatkovna točka je sljediva i provjerljiva
3. Zero-shot bez predložaka: Nema predložaka, nema treniranja, nema pravila. Prirodno ljudsko promptanje — opišite prirodnim jezikom što želite izdvojiti.
Uz to: podatkovni centri u EU-u, usklađeno s GDPR-om, dostupno on-premise. Dok PaperOffice LLM sve forsira u cloud (s 48-satnim cacheom!), PaperOffice nudi punu suverenost podataka.
| Značajka | PaperOffice LLM | Izvorni LLM-ovi | PaperOffice AI |
|---|---|---|---|
| Markdown izlaz | ✅ | ✅ | ✅ |
| Bounding boxovi | ⚠️ S greškama | ❌ | ✅ Precizno do piksela |
| Pretraživi PDF | ❌ | ❌ | ✅ |
| PII redakcija | ❌ | ❌ | ✅ |
| Tablice (složene) | ⚠️ ~80% | ⚠️ Varijabilno | ✅ Specijalizirano |
| Rukopis | ⚠️ Djelomično | ⚠️ Varijabilno | ✅ AI Vision |
| On-premise | ❌ | ❌ | ✅ |
| GDPR/EU serveri | ❌ | ⚠️ | ✅ |
| Cijena (enterprise) | 0,056–0,113 USD | Varijabilno | 0,01–0,03 USD |