AI uudised24. juuni 202611 min lugemist

Mistral tõi välja OCR 4: dokumendituvastus saab piirdekastid, plokitüübid ja usaldusskoorid

Mistral OCR 4 lisab dokumendituvastusele piirdekastid, plokitüübid ja usaldusskoorid. Vaatame, mida see ettevõtetele tähendab.

Mõju

Mistral OCR 4 muudab dokumendituvastuse ettevõtete jaoks kontrollitavamaks: tekstile lisanduvad asukoht, plokitüüp ja kindluse hinnang. See aitab ehitada paremat RAG-i, otsingut, arhiive ja auditeeritavaid töövooge, kuid nõuab oma dokumentidel testimist.

Mistral avaldas 23. juunil 2026 uue dokumendituvastuse mudeli OCR 4, mis ei piirdu enam üksnes teksti väljavõtmisega. Uus versioon tagastab koos tekstiga ka piirdekastid, plokitüübid ja usaldusskoorid. Praktikas tähendab see, et süsteem oskab näidata, kus tekst dokumendis paikneb, kas tegemist on pealkirja, tabeli, võrrandi, allkirja või muu elemendiga ning kui kindel mudel oma tulemuses on.

Mistrali teatel toetab OCR 4 170 keelt kümnes keelerühmas ning seda saab kasutada nii API kaudu, Mistral Studio Document AI töövoogudes, Amazon SageMakeris ja Microsoft Foundrys kui ka ettevõtte enda taristus. Ise hallatav kasutus on suunatud eelkõige suurematele äriklientidele, kellel on ranged andmekaitse, andmeresidentsuse või vastavusnõuded.

Uuendus on oluline seetõttu, et ettevõtete dokumenditöö ei tähenda enam ainult skaneeritud faili tekstiks muutmist. Pangad, kindlustusettevõtted, juristid, avalik sektor, tervishoiuasutused ja tööstusettevõtted vajavad üha sagedamini masinloetavat struktuuri: tabelid peavad jääma tabeliteks, allkirjad allkirjadeks, vormiväljad vormiväljadeks ja viited dokumendi algsele asukohale kontrollitavaks.

See on ka koht, kus OCR 4 sobitub Mistrali laiemasse ärisuunda. Prantsuse ettevõte on viimastel aastatel ehitanud endale positsiooni Euroopa tehisarutaristu pakkujana, rõhutades avatust, kohandatavust ja ettevõtete kontrolli oma andmete üle. OCR 4 ei ole üldotstarbeline vestlusmudel, vaid kitsama ülesandega tööriist, mille eesmärk on muuta dokumendid otsingu, teadmistebaaside ja äriprotsesside jaoks kasutatavaks.

Mis täpselt muutus?

Varasem OCR-töövoog vastas tavaliselt küsimusele: „Mis tekst on sellel leheküljel?” OCR 4 liigub sammu edasi ja vastab ka küsimustele „kus see tekst asub?”, „mis tüüpi sisuga on tegemist?” ja „kui usaldusväärne see väljavõte on?”.

Piirdekast ehk bounding box tähendab dokumendi koordinaadipõhist ala, mille sisse konkreetne tekstiplokk, tabel, valem või muu element jääb. See on oluline näiteks siis, kui kasutaja tahab otsingutulemusest minna tagasi täpse lehekülje ja lõigu juurde, varjata tundlikke välju, kontrollida arve rida või siduda väljavõetud andmed dokumendi algse visuaalse asukohaga.

Plokitüüpide määramine aitab dokumendi sisu paremini jaotada. Kui süsteem eristab pealkirju, lõike, tabeleid, võrrandeid, allkirju ja muid elemente, saab järgnevas töövoos teha sisukamaid otsuseid. Näiteks ei pea arve töötlemisel kogu lehte käsitlema ühe pika tekstina, vaid saab eristada müüjat, ridasid, summasid, maksuvälju ja kinnitusi.

Usaldusskoorid on kolmas oluline lisandus. Mistrali API dokumentatsiooni järgi saab confidence score’i küsida lehekülje või sõna tasemel. See ei tähenda, et tulemus oleks automaatselt õige või vale, kuid annab arendajale ja protsessiomanikule märgi, millised väljad vajavad tõenäolisemalt inimese kontrolli.

Miks see praegu tähtis on?

Ettevõtete tehisaruprojektides on dokumendid sageli kõige raskem osa. Failid võivad olla PDF-id, skannid, esitlused, Wordi dokumendid, vanad arhiivimaterjalid, mitmekeelsed lepingud, tabelitega aruanded või halvasti pildistatud vormid. Kui sisend on vigane, puudulik või vales järjekorras, kandub viga edasi otsingusse, kokkuvõtetesse, aruannetesse ja automaatsetesse töövoogudesse.

RAG ehk otsingu abil toetatud vastamine sõltub suurel määral sellest, kui hästi on algdokumendid tükeldatud ja indekseeritud. Kui tabel läheb tekstiks vales järjekorras või pealkiri kaob, võib hilisem vastus olla küll enesekindel, kuid sisuliselt vale. Seetõttu ei ole OCR enam pelgalt tehniline eeltöö, vaid määrab suure osa sellest, kas ettevõtte teadmisteotsing annab kontrollitavaid tulemusi või toodab eksitavat kindlust.

OCR 4 puhul rõhutab Mistral just seda vahekihti: mudel on mõeldud dokumendi sissetoomiseks otsingu-, RAG- ja valdkonnapõhistesse andmetorudesse. Teisisõnu on OCR 4 pigem dokumentide töötlemise ehitusplokk kui lõppkasutajale mõeldud üksikrakendus.

Hind ja saadavus

Mistrali ametliku teate järgi maksab OCR 4 API kaudu 4 dollarit 1000 lehekülje kohta. Batch API kasutamisel langeb hind 2 dollarini 1000 lehekülje kohta. Document AI, mis kasutab OCR 4 mootorit ja lisab sellele struktureeritud väljavõtteid, maksab 5 dollarit 1000 lehekülje kohta.

Arendajale tähendab see üsna selget valikut. Kui vaja on puhast väljavõttu koos piirdekastide, plokitüüpide, usaldusskooride ja markdown-väljundiga, piisab OCR 4 API-st. Kui vaja on näiteks kindla JSON-skeemi järgi arveandmeid, lepinguvälju või muu äriloogikaga seotud struktuuri, tuleb kasutada Document AI lisakihte.

Mistrali teatel on OCR 4 ja sellel põhinev Document AI saadaval Mistrali API ja Studio kaudu, samuti Amazon SageMakeris ning Microsoft Foundrys. Snowflake Parse Documenti tugi on ametliku teate järgi tulekul. Eraldi tuleb tähele panna, et partnerplatvormid võivad tehnilisi võimalusi avada eri tempos. Seetõttu peaks ettevõte enne tootmiskasutust kontrollima konkreetse pilvekeskkonna dokumentatsiooni, mitte eeldama, et kõik Mistrali natiivse API parameetrid on samal kujul igas partnerkeskkonnas olemas.

Benchmark’id näitavad tugevat tulemust, kuid pilt ei ole lõplik

Mistral väidab, et OCR 4 saavutas avalikul OlmOCRBench’il tulemuse 85,20 ning OmniDocBench’il 93,07. Ettevõtte enda inimhindamise järgi eelistasid sõltumatud hindajad OCR 4 väljundit konkurentidega võrreldes keskmiselt 72 protsendil juhtudest. Hindamisel kasutati Mistrali teatel üle 600 dokumendi enam kui 12 keeles ning hindajad ei teadnud, millise süsteemi väljundit nad parajasti hindavad.

Need arvud on tugevad, kuid neid ei tohiks lugeda lõpliku paremusjärjestusena. Ka Mistral ise lisab oma teates olulise reservatsiooni: automaatsed benchmark’id võivad karistada õiget tulemust, kui võrdlusandmestik või hindamismeetod ei arvesta samaväärseid väljendusviise, eri LaTeX-kujusid, mitmeveerulise teksti lugemisjärjekorda või pealkirjade-jaluste eripära.

Sama probleemi on laiemalt kirjeldanud ka valdkonna uurijad ja tööriistade arendajad. OlmOCR-Bench on üks mõjukamaid tänapäevaseid OCR-võrdlusi, kuid see põhineb enam kui 1400 PDF-failil ja üle 7000 ühiktestil, mis kontrollivad näiteks teksti olemasolu, lugemisjärjekorda, tabeleid, matemaatikat ja vanu skanne. Selline mõõtmine annab vajalikku struktuuri, kuid ei kata kõiki äridokumentide juhtumeid.

OmniDocBench on teine laialt kasutatud võrdlusraamistik, mis hindab dokumentide paigutust, teksti, tabeleid, valemeid ja lugemisjärjekorda. Selle tugevus on põhjalik märgendus, kuid hilisemad uurimistööd on juhtinud tähelepanu sellele, et dokumendiparsimise mudelite tulemused võivad digitaalselt puhtatel andmestikel paista paremad kui päriselus. PureDocBench’i 2026. aasta töö leidis OmniDocBench’i hinnatud plokkides märkimisväärse hulga märgendusvigu ning MPDocBench-Parse rõhutas, et paljud benchmark’id jäävad lühikeseks mitmeleheküljeliste dokumentide, semantilise järjepidevuse ja visuaalse sisu säilitamise hindamisel.

Seetõttu on kõige mõistlikum lugeda Mistrali tulemusi tugeva signaalina, mitte garantiina. Ettevõtte enda soovitus — testida mudelit oma dokumentidel — on siin sisuliselt õige.

Ekspertide vaade

Mistrali teates on kolm avalikku partnerikommentaari, mida saab käsitleda ettevõtte teadaande osana, mitte sõltumatu laborihinnanguna.

Rogo tehisaruinsener Aidan Donohue ütles Mistrali teates, et nende võrdluses saavutas OCR 4 finantsküsimuste ja graafikutega tihedal andmestikul ligikaudu samaväärse täpsuse umbes kaheksa korda madalama kulu ja 17 korda väiksema latentsusega kui juhtivad agentse dokumenditöötluse lahendused. See kommentaar on oluline finantssektori vaates, kus dokumendid sisaldavad sageli graafikuid, tabeleid, joonealuseid märkusi ja mitut tähenduskihti.

Anaqua tehisaruinsener Ivan Mihailov tõi Mistrali teates välja, et Mistral OCR oli nende kasutuses ligikaudu neli korda kiirem ühe lehekülje kohta kui senine teenusepakkuja. Tema näide puudutas intellektuaalomandi menetluste mahukaid töövooge, kus dokumentide töötlemise kiirus mõjutab otseselt tähtaegade haldamist.

Microsofti AI-ökosüsteemi partnerluste asepresident Kimmi Grewal seostas Mistral Document AI lisandumise Microsoft Foundrysse ettevõtete vajadusega tuua struktureeritud dokumendimõistmine olemasolevatesse töövoogudesse. See näitab, et Mistral ei püüa OCR 4-ga olla ainult API-teenus, vaid tahab jõuda suuremate ettevõtete platvormivalikutesse.

Sõltumatuma tausta annab LlamaIndexi asutaja Jerry Liu analüüs OlmOCR-Bench’i ja OmniDocBench’i kohta. Liu hinnangul on OlmOCR-Bench oluline samm, kuid päris äridokumentide puhul jäävad lüngad: arved, vormid, finantsaruanded, visuaalsed esitlused, käekiri ja mitmekeelsed dokumendid ei mahu alati olemasolevate testide loogikasse. Sama mõte kordub tema OmniDocBench’i analüüsis: kõrged koondtulemused ei tähenda, et dokumendiparsimine oleks lahendatud kõigis päriselu juhtudes.

Eesti kasutaja ja ettevõtte vaade

Eesti ettevõtete jaoks on OCR 4 kõige huvitavam kolmes kohas: arhiivid, otsing ja kontrollitavad töövood.

Esiteks puudutab see organisatsioone, kellel on palju vanu dokumente. Need võivad olla lepingud, tehnilised juhendid, hooldusaktid, hankedokumendid, kirjavahetus, aruanded või skaneeritud blanketid. Kui selline materjal muuta paremini struktureerituks, saab selle põhjal ehitada sisemist otsingut ja vähendada käsitsi sirvimist.

Teiseks on teema oluline mitmekeelsetele organisatsioonidele. Eesti ettevõtetes ja avalikus sektoris liigub dokumente eesti, inglise, vene, soome, saksa ja muudes keeltes. Mistrali 170 keele tugi ei tähenda automaatselt võrdselt head kvaliteeti kõigis keeltes ja dokumenditüüpides, kuid annab vähemalt tehnilise aluse, mida tasub oma andmetel proovida.

Kolmandaks on oluline ise hallatav kasutus. Euroopa ja Eesti organisatsioonides ei ole alati vastuvõetav, et lepingud, isikuandmed, meditsiinilised dokumendid, taristujoonised või õigusalased materjalid liiguvad kolmanda riigi pilveteenusesse. Kui OCR 4 saab tõesti töötada ettevõtte enda keskkonnas ühe konteinerina, võib see muuta Mistrali pakkumise atraktiivseks just neile, kes vajavad kontrolli andmete asukoha ja töötlemise üle.

Avalikus sektoris võiks selline tööriist sobida dokumendiregistrite, arhiivide, menetlusmaterjalide ja sisemiste teadmistebaaside korrastamiseks. Samal ajal tuleb olla ettevaatlik: dokumentide automaatne töötlemine ei tohi muutuda automaatseks otsustamiseks. Mistral ütleb ka ise, et OCR 4 ei ole mõeldud meditsiiniliseks diagnoosiks, õigusnõu andmiseks, kõrge panusega finantsotsusteks ega ohutuskriitilistesse süsteemidesse.

Praktiline kasutus

Arendajale annab OCR 4 kõige rohkem väärtust siis, kui dokumendi algne kuju peab jääma hiljem kontrollitavaks. Näiteks ettevõtte otsingus võiks kasutaja näha mitte ainult väljavõetud lauset, vaid ka seda, millisel leheküljel ja millises dokumendiosas see paiknes. Sama loogika on vajalik viidete, redigeerimise, juriidilise kontrolli ja auditi puhul.

Finants- ja raamatupidamistöövoogudes saab usaldusskooride abil suunata inimesele ainult need väljad, mille puhul mudel on ebakindlam. See ei eemalda kontrollivajadust, kuid võib vähendada juhuslikku käsitööd.

Tehniliste dokumentide puhul on tähtis, et tabelid, skeemide kirjeldused ja võrrandid ei läheks tekstiks vales järjekorras. Siin on piirdekastid ja plokitüübid vajalikud, kuid mitte piisavad. Kui dokument on halb skann, kõveralt pildistatud või sisaldab keerukat skeemi, tuleb tulemusi eraldi kontrollida.

Riskid ja piirangud

OCR 4 kohta ei ole veel piisavalt sõltumatuid tootmiskeskkonna võrdlusi. Mistrali ametlikud tulemused ja partnerikommentaarid annavad tugeva esmase signaali, kuid need ei asenda organisatsiooni enda katseid.

Teine piirang puudutab keeli. 170 keele tugi on lai, kuid iga keele puhul tuleks eraldi testida teksti, tabelite, nimede, lühendite ja erialasõnavara täpsust. Eesti keele puhul on eriti oluline kontrollida täpitähti, käändelõppe, isikunimesid, asutuste nimesid ja dokumentides esinevaid lühendeid.

Kolmas risk on vale kindlustunne. Usaldusskoor ei ole tõde. Kõrge skooriga väljavõte võib olla vales kontekstis, madala skooriga väljavõte võib olla sisuliselt õige. Seetõttu tuleb usaldusskoori kasutada töövoo juhtimiseks, mitte otsuse automaatseks kinnitamiseks.

Neljas küsimus on integratsioon. OCR 4 väärtus sõltub sellest, kas tulemused jõuavad otsingusse, dokumendihaldusse, andmebaasi või ärirakendusse mõistlikul kujul. Kui organisatsioonil puudub selge andmemudel, versioonihaldus, ligipääsukontroll ja kontrollprotsess, ei lahenda parem OCR üksi dokumendikaost.

Mida edasi jälgida?

Järgmisena tuleks jälgida kolme asja. Esiteks seda, kui kiiresti partnerplatvormid, eriti Microsoft Foundry, Amazon SageMaker ja hiljem Snowflake, avavad kõik OCR 4 võimalused oma keskkondades. Teiseks seda, kas ilmuvad sõltumatud võrdlused päris äridokumentide põhjal, mitte üksnes avalike benchmark’ide tulemused. Kolmandaks seda, kuidas Mistral arendab Document AI kihti, sest ettevõtete jaoks on lõplik väärtus sageli mitte tekstiväljavõte, vaid usaldusväärne struktureeritud andmestik.

OCR 4 näitab, kuhu dokumendituvastus liigub: tekstist üksi ei piisa, vaja on struktuuri, asukohta, kindluse hinnangut ja kontrollitavat seost algallikaga. See ei tee dokumenditöötlust eksimatuks, kuid annab arendajatele ja ettevõtetele parema lähtekoha. Kõige kainem järeldus on lihtne: Mistral on toonud turule tehniliselt olulise dokumenditöötluse mudeli, kuid selle tegelik väärtus selgub alles konkreetsete dokumentide, töövoogude ja kontrollinõuete peal.

Korduma kippuvad küsimused

Mis on Mistral OCR 4?

Mistral OCR 4 on dokumendituvastuse mudel, mis võtab sisendiks dokumente ja tagastab masinloetava teksti koos struktuuriinfoga. Uus versioon lisab piirdekastid, plokitüübid ja usaldusskoorid, mis aitavad hiljem aru saada, kus info dokumendis paiknes ja kui kindel süsteem väljavõttes oli.

Mille poolest erineb OCR 4 tavalisest OCR-ist?

Tavaline OCR püüab peamiselt pildi või PDF-i tekstiks muuta. OCR 4 annab lisaks teada, millise dokumendiosaga on tegemist, kus see asub ja millise kindlusega mudel selle tuvastas. See on oluline otsingu, dokumentide indekseerimise, arveandmete töötlemise ja kontrollitavate viidete jaoks.

Kui palju Mistral OCR 4 maksab?

Mistrali ametliku hinnastuse järgi maksab OCR 4 API kaudu 4 dollarit 1000 lehekülje kohta. Batch API kasutamisel on hind 2 dollarit 1000 lehekülje kohta. Document AI, mis lisab OCR 4 väljundile struktureeritud väljavõtteid, maksab 5 dollarit 1000 lehekülje kohta.

Kas OCR 4 toetab eesti keelt?

Mistral ütleb, et OCR 4 toetab 170 keelt kümnes keelerühmas. See loob eelduse ka Eesti kasutusjuhtudeks, kuid eesti keele kvaliteeti tuleks alati testida oma dokumentidel, eriti nimede, täpitähtede, lühendite ja erialase sõnavara puhul.

Kas OCR 4 saab kasutada ettevõtte enda serveris?

Mistrali teatel saab OCR 4 töötada ühe konteinerina ning ise hallatav kasutus on saadaval äriklientidele. See on oluline organisatsioonidele, kelle dokumendid ei tohi liikuda avalikku pilve või kellel on ranged andmeresidentsuse ja vastavusnõuded.

Kas OCR 4 sobib automaatsete otsuste tegemiseks?

Ei. OCR 4 on dokumendi mõistmise ja andmete väljavõtmise tööriist, mitte otsustaja. Mistral rõhutab, et mudel ei ole mõeldud meditsiiniliseks diagnoosiks, õigusnõuks, kõrge panusega finantsotsusteks ega ohutuskriitilisteks süsteemideks.

Kas Mistrali benchmark’i tulemusi saab täielikult usaldada?

Neid tuleb võtta suunava infona. OCR 4 tulemused OlmOCRBench’il ja OmniDocBench’il on tugevad, kuid nii Mistral kui ka valdkonna analüüsid rõhutavad, et dokumendiparsimise benchmark’id ei kata kõiki päriselu juhtumeid. Ettevõtted peaksid mudelit testima oma dokumentidel.

Kellele OCR 4 kõige rohkem kasu annab?

Kõige suurem kasu on organisatsioonidel, kellel on palju dokumente ja vajadus neid otsida, indekseerida, kontrollida või struktureeritud andmeteks muuta. Näited on finants, kindlustus, õigus, avalik sektor, tervishoid, tehniline dokumentatsioon ja arhiivitöö.

Saa järgmine AI-RADAR postkasti

Kui järgmine praktiline AI-signaal või tööriistamuutus avaldatakse, saad selle otse e-postile.

Arutelu

0 kommentaari

Laen kommentaare...

Loe edasi

Seotud teemad AI-RADARis

AI uudised24. juuni 202610 min

Uuring: parem keelemudel ei pruugi vajada rohkem mälu, vaid oskust unustada

Amsterdami Ülikooli ja Max Plancki psühholingvistika instituudi uuring näitab, et väiksed keelemudelid võivad õppida grammatikat paremini, kui Transformer-arhitektuurile lisada inimlikku unustamist meenutav mälukadu ja

Loe edasi

AI uudised24. juuni 202612 min

Gartner hoiatab tehisaru haibi eest: kasu ei sünni mudelist, vaid juhtimisest

Gartneri analüütikud hoiatavad, et tehisaru väärtus ei sünni ainult mudelitest ega tööriistadest. Edu eeldab selget juhtimist, andmevalitsemist, kulukontrolli, kontekstikihti, töötajate koolitamist ja vastutuse jaotust.

Loe edasi

Tööriistad20. juuni 202614 min

33 mõõdikut, millega hinnata keelemudeleid ja tehisaru agente

Keelemudeli või tehisaru agendi valikul ei piisa ühest edetabelist. Vaata 33 mõõdikut kiiruse, hinna, hallutsinatsioonide, allikapõhisuse, tööriistakutsete ja turvariskide hindamiseks.

Loe edasi