Mudelid3. juuli 202611 min lugemistKristjan

Yann LeCun panustab keelemudelite järel maailmamudelitele

Yann LeCun ja AMI Labs panustavad maailmamudelitele, mis peaksid aitama tehisarul mõista ruumi, tegevusi ja füüsilist maailma.

Facebook X LinkedIn

Yann LeCun, üks kaasaegse tehisaru olulisemaid teadlasi ja endine Meta juhtiv tehisaruteadlane, seab kahtluse alla arusaama, et suuremate keelemudelite ehitamine viib masinad inimese- või loomasarnase mõistmiseni. Tema hinnangul on ChatGPT, Claude’i ja Gemini tüüpi süsteemid kasulikud, kuid nende tugevus on peamiselt keeles, koodis ja mustrite äratundmises, mitte füüsilise maailma mõistmises.

LeCun lahkus Metast 2025. aasta lõpus ning asus juhtima uut ettevõtet Advanced Machine Intelligence ehk AMI. Reutersi andmetel kogus AMI 2026. aasta märtsis 1,03 miljardit dollarit algrahastust, 3,5 miljardi dollari suuruse rahastuseelse väärtuse juures. Investorite seas olid muu hulgas Bezos Expeditions ja Nvidia, samuti Cathay Innovation, Greycroft, Hiro Capital ja HV Capital.

AMI eesmärk ei ole ehitada veel üht vestlusrobotit. Ettevõte keskendub süsteemidele, mis suudaksid õppida maailma struktuuri, planeerida tegevusi ja hinnata oma tegude tagajärgi. See suund kannab üldnimetust maailmamudelid. Need on mudelid, mis ei proovi ainult öelda, milline sõna või piksel tuleb järgmisena, vaid püüavad luua sisemise ettekujutuse sellest, kuidas keskkond muutub ja kuidas tegevused seda mõjutavad.

Teema on oluline, sest praeguse tehisaru arengu üks kitsaskoht on just füüsiline tegutsemine. Teksti koostamine, koodi kirjutamine ja andmete kokkuvõtmine on juba paljudes töövoogudes kasutusel. Seevastu kodurobot, mis oskaks ohutult nõusid masinasse panna, riideid triikida või segases ruumis üldistada, mida teha, on endiselt keeruline inseneri- ja teadusprobleem.

Miks LeCun keelemudelite suhtes kriitiline on

Suured keelemudelid on õppinud väga suurest tekstihulgast seoseid sõnade, lausete, koodi ja sümbolite vahel. Seetõttu suudavad need kirjutada artikleid, aidata programmeerimisel, vastata küsimustele ja lahendada teatud tüüpi matemaatilisi ülesandeid. LeCuni kriitika ei seisne selles, et need süsteemid oleksid kasutud. Tema väide on kitsam: pelgalt keelemudelite kasvatamine ei pruugi anda süsteemi, mis mõistaks maailma nii, nagu seda teeb loom või inimene.

Meta on sama uurimissuunda kirjeldanud oma JEPA mudelite kaudu. I-JEPA ja V-JEPA ei õpi pildi või video puuduvaid osi otse pikslite kaupa taastama, vaid ennustavad nende abstraktseid esitusi. Meta selgituse järgi peaks selline lähenemine aitama õppida maailma kohta sisukamaid seoseid kui pelk pinna taastamine.

LeCuni 2022. aasta positsioonipaber „A Path Towards Autonomous Machine Intelligence” kirjeldas suunda, kus masin peaks õppima maailmamudeleid, oskama planeerida, arutleda ja tegutseda eesmärgipäraselt. Põhiidee on, et intelligentne süsteem ei peaks iga olukorda lahendama ainult statistilisest mälust, vaid peaks looma sisemise mudeli sellest, mis on oluline ja mis on ebaoluline.

Lihtne näide on püsti pandud pastapliiats. Inimene saab aru, et kui pliiats lahti lasta, kukub see ümber. Samas ei ole mõistlik täpselt ennustada, millises suunas see kukub, sest juhuslikud mikrotingimused määravad lõpptulemuse. LeCuni järgi peaks tugev maailmamudel eristama, mida on vaja ennustada ja mida mitte. Keelemudel võib seevastu üritada anda ühe tõenäolise vastuse, sest selle põhimehhanism on järjestuse jätkamine, mitte füüsilise põhjuslikkuse mõistmine.

Mis on maailmamudel

Maailmamudel on tehisaru süsteem, mis õpib keskkonna dünaamikat: millised objektid on olemas, kuidas need liiguvad, kuidas tegevused olukorda muudavad ja millised tulemused on tõenäolised. Selline mudel võib olla kasulik robotites, isejuhtivates sõidukites, simulatsioonides, mängudes, tööstusautomaatikas ja ruumilise sisu loomisel.

Google DeepMind kirjeldab maailmamudelit kui süsteemi, mis simuleerib keskkonna dünaamikat ning ennustab, kuidas keskkond muutub ja kuidas tegevused seda mõjutavad. See on teistsugune siht kui tavaline tekstigeneraator: mudel peab suutma mõelda tegevuse tagajärjele, mitte ainult vastuse sõnastusele.

DeepMindi Genie 2 ja Genie 3 näitavad seda suunda virtuaalsete keskkondade loomisel. Genie 2 suutis ühe pildipõhise viiba alusel luua tegevustega juhitavaid 3D-keskkondi, Genie 3 puhul räägib DeepMind üldotstarbelisest maailmamudelist, mis loob reaalajas uuritavaid interaktiivseid keskkondi.

Sama suund paistab isejuhtivates sõidukites. Wayve’i GAIA-1 oli 2023. aastal kirjeldatud kui autonoomse sõidu maailmamudel, mis kasutab videot, teksti ja tegevussisendeid, et luua realistlikke sõidustsenaariume. 2025. aasta GAIA-2 laiendas seda mitme kaamera vaate, struktureeritud tingimuste ja keerukamate liiklusolukordade suunas.

JEPA: LeCuni katse vältida liigset detaili

JEPA ehk Joint Embedding Predictive Architecture tähendab lihtsustatult arhitektuuri, mis ennustab puuduva või tulevase osa abstraktset esitust, mitte selle kõiki madala taseme detaile. See on oluline, sest pärismaailm sisaldab tohutult müra: varjud, juhuslikud tekstuurid, väikesed liikumised ja kõrvalised detailid ei pruugi otsuse tegemisel midagi muuta.

Meta V-JEPA puhul õpib mudel videotest nii, et ennustab varjatud osade esitusi. Meta nimetab seda mittegeneratiivseks mudeliks: eesmärk ei ole toota ilusat videot, vaid õppida video põhjal kasulikku maailmarepresentatsiooni.

2026. aastal tutvustatud V-JEPA 2 puhul rõhutab Meta juba kolme eesmärki: mõista, ennustada ja planeerida. See asetab JEPA selgelt füüsilise maailma ja kehastatud tehisaru suunda, kus mudel peab suutma toetada tegevust, mitte ainult kirjeldust.

See ei tähenda, et JEPA oleks valmis üldotstarbeline mõistusega süsteem. Pigem on see üks uurimissuund, mille kaudu püütakse vähendada praeguste mudelite sõltuvust hiiglaslikust märgendatud andmest, pikslitaseme taastamisest ja puhtalt keelelisest mustrituvastusest.

Teised laborid liiguvad samas suunas

LeCun ei ole selles vaates üksi. Oxfordi ülikooli professor Ingmar Posner juhib Applied Artificial Intelligence Labi, mille töö keskendub robotitele, mis suudaksid keerulises pärismaailmas õppida, kohaneda ja tegutseda. Oxfordi andmetel uurib tema labor muu hulgas maailma struktureeritud mudeleid, robotõpet ja süsteeme, mis paranevad kogemuse kaudu.

Üks Oxfordi seotud uurimissuund on SPARTAN, hõre Transformer-tüüpi maailmamudel, mis püüab õppida kohalikke põhjuslikke seoseid. Selle mõte on praktiline: füüsilises keskkonnas ei mõjuta kõik kõike. Kui üks auto pidurdab, võib see mõjutada tagasõitjat, kuid mitte kõiki teisi stseenis olevaid objekte. Sellise struktuuri õppimine võib parandada mudeli kohanemisvõimet, seletatavust ja vastupidavust segavatele teguritele.

Google DeepMindi Dreameri töö näitab, et maailmamudelid võivad aidata ka otsustamist õppida. Nature’is avaldatud uuringus suutis Dreamer koguda Minecraftis teemante ilma inimandmeteta, kasutades õpitud ettekujutust tulevaste sammude mõjust. 2025. aasta Dreamer 4 töö lisas omakorda suuna, kus agent õpib keerukaid ülesandeid maailmamudeli sees, offline-andmete põhjal.

Fei-Fei Li juhitud World Labs kasutab mõistet „ruumiline intelligentsus”. Ettevõte kirjeldab end kui ruumilise intelligentsuse ettevõtet, mis ehitab mudeleid, mis suudavad tajuda, luua, arutleda ja tegutseda 3D-maailmas. 2026. aasta veebruaris teatas World Labs 1 miljardi dollari suurusest lisarahastusest, investorite seas olid AMD, Autodesk, Emerson Collective, Fidelity, Nvidia ja Sea.

Miks see robootikas tähtis on

Robootika probleem ei ole ainult liikumine. Tööstusrobot saab hästi hakkama siis, kui keskkond on täpselt määratud: sama detail, sama töölaud, sama liikumistee. Kodus või avalikus ruumis on olukord vastupidine. Esemed on eri kohtades, valgus muutub, inimene võib vahele astuda, objekt võib libiseda ja ülesande eesmärk võib olla ebatäpne.

Seetõttu ei piisa robotile ainult käsust „pane tass nõudepesumasinasse”. Robot peab aru saama, mis on tass, milline on selle asend, kas see on habras, kas masin on avatud, kuhu tass sobib, mida teha takistuse korral ning millal lõpetada. Keelemudel võib anda juhise, kuid füüsilise tegevuse jaoks on vaja tajumist, ruumilist mudelit, põhjuslikku arusaama ja ohutut kontrolli.

Wayve’i isejuhtiva tehnoloogia näide näitab sama pinget liikluses. Reuters kirjeldas 2026. aasta juulis, et Wayve kasutab end-to-end masinõpet, mille eesmärk on tõlkida sensorite andmed juhtimisotsusteks. Samas tõid valdkonna eksperdid välja, et otsustusprotsessi läbipaistmatus ja ohutuse tõestamine jäävad suureks küsimuseks.

See on ka maailmamudelite laiem risk: parem simulatsioon ei võrdu automaatselt ohutu tegutsemisega. Mudel võib õppida kasulikke seoseid, kuid füüsilises maailmas tuleb eraldi tõendada, et süsteem töötab piisavalt hästi harvades, kallites ja ohtlikes olukordades.

Eesti lugeja vaade: mida see tähendab ettevõtetele ja arendajatele

Eesti ettevõtte jaoks ei tähenda maailmamudelite areng lähiajal seda, et kontorisse tasub kohe tellida üldotstarbeline humanoidrobot. Praktilisem mõju tuleb tõenäoliselt varem kolmes valdkonnas: simulatsioon, tööstuslik kvaliteedikontroll ja otsustustugi keerukates tehnilistes keskkondades.

Tööstuses võib maailmamudel aidata testida, kuidas tootmisliin käitub eri tingimustes, ilma et iga stsenaariumi peaks päriselt läbi mängima. Logistikas ja transpordis võib sellest kasu olla riskistsenaariumide simuleerimisel. Taristuettevõtetes võiks tulevikus sarnane mõtlemine aidata modelleerida, kuidas rike, ilm, hooldusotsus või koormuse muutus mõjutab süsteemi järgmisi samme.

Arendajatele tähendab see, et ainult keelemudelite API-de kasutamine ei pruugi olla järgmise laine kõige olulisem oskus. Kasvab vajadus mõista multimodaalseid mudeleid, simulatsioonikeskkondi, andmekvaliteeti, põhjuslikku modelleerimist, sensoriandmeid ja süsteemide valideerimist.

Avalikus sektoris tuleb olla ettevaatlik. Kui maailmamudeleid hakatakse kasutama liikluse, taristu, pääste, kaitse või tervishoiu otsustustoes, ei piisa ilusast demost. Vaja on auditeeritavust, testandmeid, selgeid vastutuspiire ja arusaama, millal mudel ei tea piisavalt.

Ekspertide vaade: üksmeel on piirangutes, mitte lahenduses

LeCuni seisukoht on selge: praeguste keelemudelite kasvatamine ei vii tema hinnangul looma- või inimesesarnase mõistmiseni. Reutersi järgi ehitab AMI just alternatiivset suunda, mille keskmes on arutlemine, planeerimine ja pärismaailma modelleerimine.

Oxfordi Posneri labori uurimused toetavad üldist vaadet, et maailmamudelid vajavad struktuuri ja põhjuslikkust. SPARTANi töö rõhutab, et oluline pole ainult järgmise oleku ennustamine, vaid ka see, millised objektid ja sündmused on omavahel tegelikult seotud.

DeepMindi Dreameri suund näitab, et „kujutluses õppimine” võib anda tulemusi keerulistes keskkondades, kuid Minecraft ei ole pärismaailm. Nature’i artikkel ja hilisem Dreamer 4 töö on olulised teaduslikud sammud, mitte tõend, et füüsiline robot oskab sama kindlalt tegutseda kodus või tehases.

Fei-Fei Li ja World Labsi ruumilise intelligentsuse rõhuasetus lisab teise mõõtme: maailmamudelid ei ole ainult robootika või autonoomse sõidu probleem. Need võivad muuta ka 3D-sisu loomist, disaini, haridust, teadust ja simulatsioone. World Labs ise kirjeldab eesmärgina mudeleid, mis tajuvad, genereerivad ja suhtlevad 3D-maailmaga.

Riskid ja piirangud

Esimene risk on ületõlgendamine. Kui mudel oskab luua veenva virtuaalse maailma või ennustada videos liikumist, ei tähenda see veel, et mudel mõistab olukorda inimese moodi. Simulatsioon võib olla kasulik, kuid see võib ka jätta vale kindlustunde.

Teine risk on andmestik. Füüsilise maailma õppimine nõuab videoid, sensoriandmeid, tegevusandmeid ja tagasisidet. Selliste andmete kogumine on kallis, privaatsustundlik ja tihti domeenipõhine. Üldine mudel võib vajada märkimisväärset kohandamist enne, kui see sobib konkreetse tehase, lao, teeolude või koduse keskkonnaga.

Kolmas risk on ohutus. Keelemudeli vale vastus võib olla kahjulik, kuid roboti vale liigutus või sõiduki vale otsus võib tekitada füüsilist kahju. Seetõttu on maailmamudelite puhul vaja rangemat testimist, kontrolli ja vastutusmudelit kui tavalise tekstipõhise tööriista puhul.

Neljas risk on majanduslik surve. AMI ja World Labsi miljardirahastused näitavad investorite huvi, kuid nii suur raha võib suurendada ootust kiirele ärilisele läbimurdele. Teaduslikult keeruline probleem ei pruugi liikuda samas tempos nagu tarkvarateenus.

Mida edasi jälgida

AMI puhul on tähtis jälgida, kas ettevõte suudab 2026. ja 2027. aastal näidata toimivaid tööstuslikke kasutusjuhtumeid, mitte ainult teaduslikku suunda. Reutersi järgi näeb LeCun AMI rakendusi muu hulgas tootmises, lennunduses ja farmaatsias.

Meta puhul tasub jälgida V-JEPA 2 ja järgmisi JEPA-mudeleid: kas need jäävad uurimislabori tasemele või jõuavad reaalsetesse robotitesse, agentidesse ja multimodaalsetesse süsteemidesse. Google DeepMindi puhul on olulised Genie ja Dreameri arengud, Wayve’i puhul aga see, kuidas maailmamudelid aitavad tõendada autonoomse sõidu ohutust.

Eesti jaoks on lähiaastate praktiline küsimus lihtne: kas maailmamudelid jõuavad tööriistadesse, mida saab kasutada ilma oma superarvutiklastrita. Kui jõuavad, võivad need anda väiksematele ettevõtetele paremad simulatsiooni-, planeerimis- ja kontrollivahendid. Kui ei jõua, jääb see suund mõneks ajaks suurte laborite ja kapitalimahukate tööstusprojektide pärusmaaks.

Kokkuvõte

LeCuni sõnum ei ole, et praegune tehisaru oleks tähtsusetu. Pigem on tema väide, et tekstipõhiste mudelite edu ei lahenda automaatselt füüsilise maailma mõistmise probleemi. Keelemudel oskab kirjutada, seletada ja programmeerida, kuid robot vajab midagi muud: arusaama ruumist, ajast, põhjusest, tagajärjest ja ebakindlusest.

Maailmamudelid on selle probleemi üks tõsisemaid uurimissuundi. Neisse panustavad AMI, Meta, Google DeepMind, Wayve, World Labs ja ülikoolilaborid. Tulemused on juba nähtavad mängudes, simulatsioonides, autonoomses sõidus ja 3D-keskkondade loomises. Samal ajal on vahe demosüsteemi ja ohutu pärismaailma masina vahel endiselt suur.

Kõige kainem järeldus on see: järgmine oluline samm tehisarus ei pruugi olla pikem vastus või suurem vestlusaken, vaid parem oskus aru saada, mis maailmas tegelikult muutub, kui süsteem midagi teeb.

Korduma kippuvad küsimused

Mis juhtus?

Yann LeCun lahkus 2025. aasta lõpus Metast ja asus juhtima ettevõtet Advanced Machine Intelligence ehk AMI. Ettevõte kogus 2026. aasta märtsis 1,03 miljardit dollarit algrahastust ning arendab keelemudelitest erinevat tehisaru suunda, mille keskmes on maailmamudelid.

Miks LeCun arvab, et praegune AI ei ole tark?

LeCuni kriitika puudutab eeskätt suuri keelemudeleid. Need suudavad hästi töödelda teksti, koodi ja sümboleid, kuid neil puudub tema hinnangul piisav arusaam füüsilisest maailmast, põhjuslikest seostest ja tegevuse tagajärgedest.

Mis on maailmamudel?

Maailmamudel on mudel, mis õpib, kuidas keskkond töötab ja kuidas tegevused seda muudavad. Näiteks võib see ennustada, kuidas objekt liigub, kuidas liiklusolukord areneb või mis juhtub, kui robot midagi nihutab.

Kuidas JEPA erineb tavalisest generatiivsest mudelist?

JEPA ei püüa taastada kõiki detaile, näiteks iga pikslit. See õpib ennustama abstraktseid esitusi, mis peaksid sisaldama otsustamiseks olulist infot.

Kas maailmamudelid asendavad ChatGPT tüüpi tööriistad?

Lähiajal pigem mitte. Keelemudelid jäävad kasulikuks kirjutamisel, programmeerimisel, otsingus, klienditoes ja teadmiste töötlemisel. Maailmamudelid täiendavad neid seal, kus on vaja ruumilist, füüsilist või tegevuspõhist arusaama.

Kellele see Eestis oluline on?

Kõige otsesemalt puudutab see tööstust, logistikat, energeetikat, taristuhaldust, robootikat, autonoomseid süsteeme ja arendajaid, kes töötavad multimodaalsete või sensoriandmetega süsteemidega.

Mis on suurim piirang?

Suurim piirang on ohutu ülekandmine simulatsioonist pärismaailma. Mudel võib õppida veenvaid mustreid, kuid füüsilises keskkonnas tuleb tõendada, et see töötab ka harvades ja ohtlikes olukordades.

Mida peaks edasi jälgima?

Jälgida tasub AMI esimesi tööstuslikke kasutusjuhtumeid, Meta V-JEPA arengut, Google DeepMindi Genie ja Dreameri tööd, Wayve’i autonoomse sõidu maailmamudeleid ning World Labsi ruumilise intelligentsuse tooteid.

MärksõnadmaailmamudelidYann LeCunAMI LabsJEPAV-JEPAI-JEPAtehisarusuured keelemudelidLLMrobootikaruumiline intelligentsusWorld LabsGoogle DeepMind GenieDreamerWayve GAIA

Saada see lugu kolleegile või salvesta hilisemaks.

Facebook X LinkedIn WhatsApp E-post

AI-RADARi uudiskiri

Saa järgmine AI-RADAR postkasti

Kui järgmine praktiline AI-signaal või tööriistamuutus avaldatakse, saad selle otse e-postile.

Arutelu

0 kommentaari

Laen kommentaare...

Loe edasi

Seotud teemad AI-RADARis

Kõik uudised

Automatsioon10. juuni 202611 min

NVIDIA Cosmos 3 lubab kiirendada robotite ja isejuhtivate süsteemide arendust

NVIDIA avaldas Cosmos 3 physical AI mudeliperekonna, mis ühendab nägemispõhise arutlemise, maailma simuleerimise ja tegevuste genereerimise. Artikkel selgitab, mida Cosmos 3 tähendab robotite, isejuhtivate sõidukite

Loe edasi

Mudelid20. juuni 202614 min

33 mõõdikut, millega hinnata keelemudeleid ja tehisaru agente

Keelemudeli või tehisaru agendi valikul ei piisa ühest edetabelist. Vaata 33 mõõdikut kiiruse, hinna, hallutsinatsioonide, allikapõhisuse, tööriistakutsete ja turvariskide hindamiseks.

Loe edasi

Mudelid10. juuni 20269 min

Anthropic avaldas mudeli, mida peeti varem avalikuks kasutuseks liiga võimsaks

Anthropic avaldas Claude Fable 5 mudeli, mis põhineb võimsal Mythos-klassi AI-l. Artikkel selgitab, miks mudel tekitas küberturbe ja bioloogia valdkonnas riske, millised piirangud sellele lisati ning mida see tähendab

Loe edasi

Miks LeCun keelemudelite suhtes kriitiline on

Mis on maailmamudel

JEPA: LeCuni katse vältida liigset detaili

Teised laborid liiguvad samas suunas

Miks see robootikas tähtis on

Eesti lugeja vaade: mida see tähendab ettevõtetele ja arendajatele

Ekspertide vaade: üksmeel on piirangutes, mitte lahenduses

Riskid ja piirangud

Mida edasi jälgida

Kokkuvõte

Korduma kippuvad küsimused

Mis juhtus?

Miks LeCun arvab, et praegune AI ei ole tark?

Mis on maailmamudel?

Kuidas JEPA erineb tavalisest generatiivsest mudelist?

Kas maailmamudelid asendavad ChatGPT tüüpi tööriistad?

Kellele see Eestis oluline on?

Mis on suurim piirang?

Mida peaks edasi jälgima?

Jaga artiklit

Saa järgmine AI-RADAR postkasti

Arutelu

Seotud teemad AI-RADARis

NVIDIA Cosmos 3 lubab kiirendada robotite ja isejuhtivate süsteemide arendust

33 mõõdikut, millega hinnata keelemudeleid ja tehisaru agente

Anthropic avaldas mudeli, mida peeti varem avalikuks kasutuseks liiga võimsaks