AI uudised24. juuni 202610 min lugemist

Uuring: parem keelemudel ei pruugi vajada rohkem mälu, vaid oskust unustada

Amsterdami Ülikooli ja Max Plancki psühholingvistika instituudi uuring näitab, et väiksed keelemudelid võivad õppida grammatikat paremini, kui Transformer-arhitektuurile lisada inimlikku unustamist meenutav mälukadu ja

Mõju

Uuring näitab, et väiksemate keelemudelite arenduses võib andmetõhusus tulla mitte ainult suuremast mälust, vaid õigest mälupiirangust. See on oluline väiksemate keelte, sealhulgas eesti keele, jaoks, kus kvaliteetset treeningandmestikku on vähem.

Uus kognitiivteaduse ja keeletehnoloogia piiril tehtud uuring näitab, et inimliku unustamise jäljendamine võib aidata väikestel keelemudelitel grammatikat tõhusamalt õppida. Tulemused on esmapilgul vastuolulised, sest tänased suured keelemudelid liiguvad pigem vastupidises suunas: suuremad kontekstiaknad, rohkem andmeid ja võimalikult täpne ligipääs varasemale tekstile.

Amsterdami Ülikooli teadlane Abishek Thamma ja Max Plancki psühholingvistika instituudi teadlane Micha Heilbron näitasid oma töös, et piiratud ja hääbuv mälu võib vähese treeningandme korral anda mudelile eelise. Nende loodud „põgusa mäluga Transformerid” ei hoia kogu varasemat teksti võrdse täpsusega alles, vaid lasevad kaugematel sõnavormidel järk-järgult hajuda.

Mõte on laenatud inimkeele õppimisest. Inimene ei mäleta kuuldud lauseid sõna-sõnalt pikalt. Täpsed sõnavormid kaovad kiiresti, kuid alles jäävad mustrid, tähendus, seosed ja korduvad keelestruktuurid. Uuringu keskne küsimus oli, kas sama piirang võiks aidata ka närvivõrgul keelt õppida.

Vastus oli jah, kuid olulise täpsustusega: unustamine aitas ainult siis, kui mudelile jäeti väga lühike vahetu mäluala, mis säilitas viimased 3–7 sõna. Ilma selle puhvrita muutus mälukadu liiga järsuks ja mudelil kadus vajalik lähikontekst.

Mida teadlased katsetasid?

Thamma ja Heilbron lisasid tavalisele Transformer-keelemudelile lihtsa mälukao mehhanismi. Transformerid on tänapäevaste keelemudelite põhialus. Nende tugevus seisneb muu hulgas selles, et mudel saab vaadata tekstis tagasi ja seostada parajasti töödeldavat sõna varasemate sõnadega.

Tavalises mudelis on kontekstiakna sees varasem tekst mudelile põhimõtteliselt kättesaadav. Põgusa mäluga versioonis muutus kaugem tekst järjest vähem mõjukaks. Mida kaugemal sõna parajasti töödeldavast kohast oli, seda nõrgemaks muutus selle mõju.

Seda ei tehtud selleks, et mudelit lihtsalt halvemaks teha. Eesmärk oli anda mudelile samalaadne surve, mis inimesel keelt õppides juba olemas on: kõike ei saa sõna-sõnalt talletada, seega tuleb õppida tihendama, üldistama ja korduvaid struktuure ära tundma.

Uuringus kasutati BabyLM-andmestikku, mis on mõeldud mudelite õpetamiseks lapse keelekeskkonda meenutava andmehulgaga. See on oluline erinevus suurtest kommertsmudelitest, mida treenitakse tohututel tekstikogudel. Siin ei olnud eesmärk näidata, et uus võte lööb üle hiiglaslikud mudelid, vaid uurida, kas piiratud andmehulgaga õppimisel aitab inimlik mälupiirang.

Miks laps on keele õppimisel mudelist tõhusam?

Lapsed õpivad keelt märksa väiksema sisendiga kui suured keelemudelid. Nad ei kuule triljoneid sõnu, ei loe kogu internetti ega saa lõputut kordust. Ometi suudavad nad mõne aastaga omandada emakeele põhistruktuurid, kasutada grammatikat paindlikult ja mõista ka lauseid, mida nad pole varem kuulnud.

See on keeleteaduse ja tehisaru uurimise jaoks vana probleem. Suured mudelid saavutavad tugevaid tulemusi sageli mahu kaudu: rohkem andmeid, rohkem parameetreid, rohkem arvutusvõimsust. Inimlaps õpib palju väiksemast sisendist, kuid teeb seda teistsuguse kognitiivse varustusega.

Üks võimalik seletus on, et inimese piirangud ei ole ainult takistus. Piiratud mälu võib sundida õppijat eristama olulist ebaolulisest. Kui täpset sõnastust ei saa lõputult alles hoida, peab süsteem leidma sügavamaid mustreid: millised sõnad kuuluvad kokku, millised sõltuvused korduvad ja kuidas lause ehitus toimib.

Sama loogikat katsetasid teadlased nüüd Transformer-mudeliga. Nad ei andnud mudelile juurde uut teadmistebaasi ega suuremat andmestikku. Nad võtsid mudelilt osa täpsest mälust ära.

Unustamine aitas grammatikat õppida

Uuringu tulemused olid järjepidevad. Põgusa mäluga mudelid said vähese andmehulgaga treenides paremaid tulemusi kui tavalised Transformerid. Paranemine ilmnes nii üldises keelemodelleerimises kui ka sihitud süntaksitestides.

Süntaksi puhul on tähtis, et mudel ei õpiks ainult järgmise sõna tõenäosust. Ta peab tabama ka lauseehitust: öeldise ja aluse ühildumist, asesõnade seoseid, argumentide struktuuri ja muid grammatilisi mustreid. Just sellistes kohtades oli mälukao efekt kõige huvitavam.

See viitab, et mudel ei saanud lihtsalt kasu mürast või juhuslikust piirangust. Pigem aitas mälukadu tal liikuda sõnasõnalisest meeldejätmisest üldisemate keelemustrite poole.

Max Plancki teates selgitas Micha Heilbron, et mudelid treeniti BabyLM-i võrdlusalusel, mis püüab jäljendada lapsele arengus kättesaadavat keelehulka. See võimaldas võrrelda mälupiiranguga ja mälupiiranguta mudeleid realistlikumates andmetingimustes.

Lühike mälupuhver osutus määravaks

Uuringu üks olulisemaid leide oli see, et pelk unustamine ei aidanud. Kui mälukadu hakkas liiga järsult ja kohe tööle, halvenes mudeli tulemus. Mudel hakkas kaotama liiga palju lähikonteksti ning see lõhkus õppimist.

Parim tulemus tekkis siis, kui mudel säilitas viimased 3–7 sõna täpselt ning alles seejärel hakkas kaugemat teksti unustama. Teadlased seostavad seda inimliku vahetu kuulmismäluga. Inimene hoiab äsja kuuldud sõnu lühikest aega piisavalt täpselt meeles, kuid kaugemate lausete täpne vorm kaob.

Keele õppimisel on see tasakaal oluline. Lause mõistmiseks on vaja lähimat sõnalist konteksti. Samal ajal ei pruugi õppimise seisukohalt olla kasulik kogu kaugemat sõnastust võrdselt tugevalt alles hoida. Liiga palju sõnasõnalist mälu võib suunata mudeli pealiskaudsete jadade õppimisele, mitte grammatilise struktuuri tabamisele.

See on uuringu praktiline tuum: parem õppimine ei pruugi tulla ainult suuremast mälust. Mõnikord võib õige unustamine anda mudelile kasuliku suuna.

Seos vana kognitiivteaduse ideega

Uuring toetub varasemale kognitiivteaduse mõttele, mida on käsitletud vähemalt 1990. aastatest. Üks tuntumaid viiteid on Jeffrey Elmani töö, kus piiratud mäluga närvivõrk õppis lihtsat tehisgrammatikat paremini siis, kui talle ei antud kohe täielikku töömälu.

Seda on vahel kirjeldatud „vähem on rohkem” põhimõttena. Laps ei õpi keelt hoolimata piirangutest, vaid osalt nende tõttu. Piirangud võivad teha õppimise lihtsamaks, sest need sunnivad süsteemi keskenduma lähimatele ja korduvamatele mustritele.

Transformerite edu on sellele mõttele osaliselt vastu vaielnud. Kui väga suured mudelid õpivad keelt hästi ka ilma inimliku mälupiiranguta, siis võib näida, et piirang pole vajalik. Thamma ja Heilbroni uuring pakub sellele täpsema vastuse: suurtes andmemahtudes võib mudel palju ise ära õppida, kuid vähese andme korral võib arhitektuurne piirang anda selge eelise.

See tähendab, et uuring ei lükka ümber suurte mudelite arengusuunda. Küll aga näitab see, et andmetõhususe parandamiseks võib olla mõistlik vaadata tagasi inimkognitsiooni poole, mitte ainult suurendada mudelit ja andmehulka.

Üllatav tulemus: parem grammatika, halvem lugemiskäitumise ennustamine

Uuringu kõige huvitavam osa ei puuduta ainult grammatika õppimist. Teadlased vaatasid ka seda, kas põgusa mäluga mudelid suudavad paremini ennustada inimeste lugemisaegu.

Keeletehnoloogias kasutatakse sageli üllatuspõhist mõõdikut. Lihtsustatult: kui mudeli jaoks on mõni sõna ootamatu, peaks see olema ka inimesele raskemini töödeldav ning lugemisaeg võib pikeneda. Varasemates töödes on sageli nähtud, et paremad keelemudelid sobituvad paremini ka inimeste lugemisaegadega.

Siin läks teisiti. Põgusa mäluga mudelid õppisid grammatikat paremini, kuid ennustasid inimeste lugemisaegu halvemini. See tähendab, et keele edukas õppimine ja täiskasvanud inimese reaalajas lugemisprotsessi jäljendamine ei pruugi tugineda samadele mehhanismidele.

Abishek Thamma sõnul oli see tulemus ootamatu, sest tavaliselt seostatakse paremat keelemodelleerimist parema sobivusega inimkäitumise andmetele. Uuring näitab, et see seos ei ole alati nii lihtne.

See on oluline hoiatus. Mudel, mis õpib grammatika hästi, ei pruugi olla hea mudel sellest, kuidas inimene lauset hetk-hetkelt töötleb. Keele omandamine ja keele reaalajas töötlemine on seotud, kuid mitte identsed nähtused.

Mida see ei tõesta?

Uuringu tulemusi ei tohiks üle tõlgendada. See ei tähenda, et suured keelemudelid peaksid kohe loobuma pikast kontekstiaknast. See ei tähenda ka, et unustav mudel oleks üldiselt parem kui tänased suured mudelid.

Töö käsitles väiksemaid mudeleid ja piiratud treeningandmeid. Just sellises olukorras võib kasulik eelhoiak, näiteks lähikonteksti eelistamine, anda mudelile eelise. Väga suurte mudelite puhul, mida treenitakse miljardite või triljonite sõnadega, võib sama eelis väheneda või kaduda, sest mudel suudab paljud mustrid andmetest ise välja õppida.

Samuti ei pruugi lühikest mälu soosiv arhitektuur sobida kõigile tekstiliikidele. Akadeemiline artikkel, pikk romaan, õigusdokument või programmikood võib vajada kaugete seoste säilitamist rohkem kui lapse keelekeskkonda meenutav sisend. Kui ülesanne sõltub pikast kontekstist, võib liiga tugev mälukadu olla kahjulik.

Seetõttu on uuringu väärtus pigem põhimõtteline: see näitab, et inimese kognitiivseid piiranguid võib kasutada mudelite disainis kasuliku vihjena. See ei ole valmis retsept kõigi keelemudelite parandamiseks.

Miks see on oluline mudeliarendusele?

Suur osa tänasest keelemudelite arengust on liikunud mahu kasvatamise suunas. Suurem mudel, rohkem andmeid, pikem kontekst ja suurem arvutusvõimsus. See suund on andnud muljetavaldavaid tulemusi, kuid on kallis ja ebatõhus. Kõik laborid, ülikoolid ja väiksemad ettevõtted ei saa treenida hiigelmudeleid.

Seetõttu muutub tähtsaks küsimus, kuidas õppida vähemast andmest paremini. BabyLM-i tüüpi võrdlusalused ongi loodud selleks, et uurida mudelite andmetõhusust. Kui mõni lihtne arhitektuurne muudatus aitab väiksemal mudelil paremini grammatikat õppida, võib sellel olla mõju nii teadustööle kui ka praktilistele väikemudelitele.

Väiksemad ja tõhusamad mudelid on olulised mitmel põhjusel. Neid on odavam treenida, lihtsam katsetada, võimalik kasutada privaatses keskkonnas ning mõnikord sobivad need paremini konkreetse keele või valdkonna jaoks. Eesti keele puhul on see eriti tähtis, sest treeningandmeid on vähem kui inglise keeles ning andmetõhusad meetodid võivad anda väiksematele keeltele parema positsiooni.

Eesti keele vaade

Eesti keele jaoks on uuringu mõte huvitav, kuigi tulemused ei käi otseselt eesti keele kohta. Eesti keel on morfoloogiliselt rikkam kui inglise keel. Käänamine, pööramine, sõnajärg ja sõltuvused võivad nõuda mudelilt teistsugust üldistamist.

Kui mälupiirang aitab mudelil liikuda sõnasõnaliselt meeldejätmiselt struktuuri tabamisele, võiks selline lähenemine olla väärt uurimist ka väiksemate keelte puhul. Samas tuleb olla ettevaatlik. Eesti keeles võivad olulised grammatilised vihjed paikneda lauses teistmoodi kui inglise keeles ning liiga lühike mälupuhver ei pruugi anda sama tulemust.

Just seetõttu oleks vaja katseid eri keeltes. Üks asi on näidata mõju ingliskeelsel BabyLM-andmestikul. Teine asi on kontrollida, kas sama põhimõte aitab keeltes, kus vormimuutus kannab rohkem infot ja kus sõnajärg on paindlikum.

Kui tulemus kanduks üle, võiks see aidata ehitada väiksemaid keelemudeleid, mis õpivad paremini vähesest kvaliteetsest andmest. See oleks tähtis nii haridustehnoloogias, keeletoimetuses, avaliku sektori digiteenustes kui ka ettevõtete sisemistes tööriistades.

Uuring toob mudelitesse tagasi inimese piirangud

Thamma ja Heilbroni töö ei väida, et masin peaks muutuma inimeseks. Pigem näitab see, et inimese piirangud võivad pakkuda mudeliarendusele kasulikke ideid. Mälu ei ole ainult salvestusmaht. Mälu kujundab seda, mida süsteem üldse õppida saab.

Kui mudel mäletab kõike liiga täpselt, võib ta toetuda pealiskaudsetele seostele. Kui osa täpsest vormist hajub, peab mudel leidma üldisema esituse. Keele puhul võib see tähendada grammatika paremat omandamist.

See sobib laiemasse arutelusse selle üle, kas tulevased keelemudelid peaksid olema lihtsalt suuremad või ka paremini suunatud. Inimene ei õpi keelt lõputust andmevoost. Ta õpib piiratud tähelepanu, piiratud mälu, sotsiaalse keskkonna, korduse ja tähenduse kaudu.

Uus uuring näitab, et vähemalt ühes kitsas katses võib üks neist piirangutest — unustamine — olla eelis, mitte puudus.

Kokkuvõte

Põgusa mäluga Transformerite uuring näitab, et väikeste keelemudelite grammatikaõpe võib paraneda siis, kui mudel ei säilita kogu varasemat teksti võrdselt täpselt. Oluline ei ole lihtsalt mälu vähendamine, vaid tasakaal: viimased 3–7 sõna peavad jääma täpselt alles, kaugem tekst võib järk-järgult hajuda.

Tulemus toetab vana kognitiivteaduse mõtet, et inimese mälupiirangud võivad aidata keelt õppida, sest need sunnivad õppijat otsima korduvaid struktuure. Samal ajal näitas uuring, et parem grammatikaõpe ei tähenda automaatselt paremat inimkäitumise jäljendamist: lugemisaegade ennustamine halvenes.

See teeb uuringust rohkem kui tehnilise nipi. See näitab, et keelemudelite arendamisel ei pea õppima ainult suurtest andmekeskustest. Mõnikord tasub vaadata ka seda, miks inimene saab hakkama palju väiksema sisendiga.

Korduma kippuvad küsimused

Mida uuring näitas?

Uuring näitas, et väiksed Transformer-keelemudelid õppisid grammatikat paremini, kui neile lisati inimlikku unustamist meenutav mälukadu. Kasu ilmnes piiratud treeningandmete korral.

Mis on põgusa mäluga Transformer?

See on Transformer-keelemudel, mille tähelepanumehhanismi on muudetud nii, et kaugemad sõnad kaotavad järk-järgult mõju. Mudel hoiab lähimat konteksti täpsemalt, kuid ei mäleta kogu varasemat teksti võrdselt tugevalt.

Miks mälukadu aitab?

Mälukadu võib sundida mudelit vähem toetuma täpsetele sõnajärgedele ja rohkem õppima korduvaid grammatilisi mustreid. Nii võib mudel vähese andmehulgaga paremini üldistada.

Miks oli vaja 3–7 sõna pikkust mälupuhvrit?

Ilma lühikese vahetu mälupuhvrita muutus unustamine liiga järsuks ja mudel kaotas vajaliku lähikonteksti. Parim tulemus tekkis siis, kui viimased 3–7 sõna säilisid täpselt ning kaugemad sõnad hakkasid hääbuma.

Mis on BabyLM?

BabyLM on võrdlusalus, mis on loodud keelemudelite andmetõhususe uurimiseks. Selle andmemahud meenutavad rohkem lapsele kättesaadavat keelekeskkonda kui suurte mudelite tavapärased treeningkorpused.

Kas see tähendab, et suured kontekstiaknad on halvad?

Ei tähenda. Uuring käsitles väiksemaid mudeleid ja piiratud andmemahtu. Pikk kontekst on paljudes ülesannetes endiselt vajalik, näiteks koodi, õigusdokumentide, teadustekstide ja pikkade aruannete puhul.

Mis oli uuringu kõige üllatavam leid?

Kõige üllatavam oli see, et põgusa mäluga mudelid õppisid grammatikat paremini, kuid ennustasid inimeste lugemisaegu halvemini. See näitab, et keele õppimine ja inimese reaalajas lugemisprotsessi jäljendamine ei ole sama asi.

Miks see võiks Eesti keelele oluline olla?

Eesti keel on väiksema andmehulgaga keel ning morfoloogiliselt rikkam kui inglise keel. Kui mälupiirang aitab mudelil õppida üldisemaid struktuure, võib see tulevikus olla kasulik ka väiksemate keelte jaoks. Seda tuleb siiski eraldi katsetada.

Saa järgmine AI-RADAR postkasti

Kui järgmine praktiline AI-signaal või tööriistamuutus avaldatakse, saad selle otse e-postile.

Arutelu

0 kommentaari

Laen kommentaare...

Loe edasi

Seotud teemad AI-RADARis

Tööriistad20. juuni 202614 min

33 mõõdikut, millega hinnata keelemudeleid ja tehisaru agente

Keelemudeli või tehisaru agendi valikul ei piisa ühest edetabelist. Vaata 33 mõõdikut kiiruse, hinna, hallutsinatsioonide, allikapõhisuse, tööriistakutsete ja turvariskide hindamiseks.

Loe edasi

AI uudised22. juuni 20269 min

GPT-5.6 on veel kinnitamata, kuid OpenAI järgmise mudeli ootused kasvavad

OpenAI ei ole GPT-5.6 mudelit ametlikult kinnitanud, kuid arendajate lekked, ennustusturud ja kasutajate tähelepanekud viitavad võimalikule juuni lõpu väljalaskele. Vaata, mida teame 1,5 miljoni tokeni kontekstiakna

Loe edasi

AI uudised22. juuni 202611 min

Z.ai GLM-5.2 tõstab Hiina avatud mudelite lati: odavam alternatiiv survestab USA tippmudeleid

Z.ai ehk endine Zhipu AI avaldas GLM-5.2 mudeli avatud kaaludega ja MIT-litsentsi all. Mudel tõuseb Artificial Analysisi ja Arena mõõdikutes avatud LLM-ide tippu ning survestab USA suletud tippmudeleid hinna, ligipääsu

Loe edasi