Arbor lubab muuta koodiagendid järjepidevamaks: hüpoteesipuu aitab vältida samade vigade kordamist
Arbor on Renmini Ülikooli ja Microsoft Researchi raamistik, mis annab koodiagentidele püsiva hüpoteesipuu. Teadlaste järgi saavutas see üle 2,5 korra parema held-out paranemise kui Codex ja Claude Code.
Arbor näitab, et pika tööga koodiagentide väärtus ei sõltu ainult mudeli võimekusest. Ettevõtete jaoks muutuvad järjest olulisemaks püsiv mälu, katselogid, auditijälg ja tõendatud paranemine.
Tehisaru koodiagendid suudavad juba kirjutada koodi, käivitada teste ja parandada vigu. Nende nõrk koht ilmneb aga pikemates uurimis- ja optimeerimisülesannetes: agent proovib üht ideed, jookseb ummikusse, unustab hiljem õpitu ning kordab sama rada uuesti.
Renmini Ülikooli Gaolingi tehisintellekti kooli ja Microsoft Researchi teadlased pakuvad sellele probleemile uut lahendust. Nende raamistik Arbor kasutab püsivat hüpoteesipuud, mis seob omavahel ideed, koodimuudatused, katsetulemused ja kokkuvõtlikud õppetunnid. Teadlaste väitel andis see sama ressursieelarve juures üle 2,5 korra suurema held-out jõudluse kasvu kui Codex ja Claude Code.
See ei tähenda, et Arbor oleks lihtsalt uus mudel. Pigem on see töökorraldus agentidele. Üks pika elueaga koordinaator juhib uurimisstrateegiat, samal ajal kui lühiajalised täitjad testivad eri hüpoteese eraldatud tööharudes. Kui katse lõpeb, lisatakse tulemus hüpoteesipuusse: mis töötas, mis ei töötanud ja mida tasub järgmises katses arvestada.
Arbori keskne väide on lihtne: pikk autonoomne töö ei parane ainult sellest, et mudel töötab kauem. Vaja on uurimisolekut, mis säilitab mälu ja muudab üksikud katsed kumulatiivseks protsessiks.
Miks koodiagentidel tekib mälu probleem?
Koodiagendid töötavad sageli kontekstiakna piires. Nad saavad ülesande, loevad koodi, teevad muudatusi, käivitavad teste ja jätkavad vastavalt tulemusele. Kui töö venib pikaks, võib oluline taust kaduda: miks üks lahendus tagasi lükati, milline hüperparameeter ebaõnnestus, milline andmefilter aitas või milline testitulemus oli tegelikult juhuslik.
See tekitab kaks praktilist probleemi. Esiteks kulub rohkem tokeneid ja arvutusressurssi, sest agent kordab samu katseid. Teiseks halveneb uurimisloogika, sest iga uus katse ei toetu piisavalt varasematele õppetundidele.
Inimuurija töötab teisiti. Ta peab laboripäevikut, märgib hüpoteesid üles, võrdleb tulemusi ja ei alusta iga hommik nullist. Arbor püüab sarnase põhimõtte agentidele süsteemselt anda.
Mis on hüpoteesipuu?
Hüpoteesipuu on struktuur, kus iga haru esindab võimalikku uurimissuunda. Ühes harus võib agent proovida muuta treeninguretsepti, teises andmefiltrit, kolmandas hindamisskripti ja neljandas sünteetilise andmestiku loomise viisi.
Iga sõlm seob kokku neli asja: hüpoteesi, selle testimiseks kasutatud artefaktid, katsetõendid ja destilleeritud õppetunni. Artefakt võib olla koodimuudatus, konfiguratsioon, andmetöötlus, treeninguskript või hindamisrakendus. Tõend võib olla mõõdik, logi, testitulemus või held-out jõudluse muutus. Õppetund on lühike üldistus: näiteks „see andmefilter parandas üldistust”, „see scheduler ei aidanud” või „see muutus parandas treeningut, kuid halvensi valideerimist”.
Selline puu ei ole lihtsalt logifail. See on agendi töömälu, otsinguruum ja auditijälg korraga. See näitab, milliseid ideid prooviti, millised neist töötasid, millised lõigati välja ja millised teadmised kandusid järgmisse harusse edasi.
Koordinaator ja täitjad täidavad eri rolle
Arbor jagab autonoomse töö kahe tasandi vahel. Pika elueaga koordinaator hoiab ülevaadet kogu hüpoteesipuust. Ta valib, milliseid harusid edasi uurida, milliseid harusid kärpida, milliseid õppetunde teistesse harudesse üle kanda ja millal parandus lugeda piisavalt tõendatuks.
Lühiajalised täitjad teevad konkreetse töö ära. Nad võtavad ühe hüpoteesi, loovad eraldatud tööharu, muudavad koodi, käivitavad katse, koguvad mõõdikud ja tagastavad tulemuse koordinaatorile. Seejärel saab tööharu kas kõrvale jätta, edasi arendada või ühendada põhiprotsessi.
Selline eristus on oluline. Kui üks agent peab korraga tegema nii strateegiat kui ka detailset kooditööd, võib üldpilt kaduda. Kui aga strateegia ja kohalik katsetamine on eraldatud, saab süsteem hoida pikemat joont: mida me üldse otsime, millised tõendid on usaldusväärsed ja milline hüpotees on järgmise katse jaoks kõige paljulubavam.
Kolm põhinõuet: harunemine, eraldatus ja kontrollitud paranemine
Arbori autorid kirjeldavad kolme süsteeminõuet.
Esimene on sidus harunemine. Agent peab saama uurida mitut võimalikku suunda, sest päris uurimistöös ei ole alguses teada, milline hüpotees osutub õigeks. Samas ei tohi puu kasvada kontrollimatult, sest siis kaob fookus ja ressursid kuluvad juhuslikele katsetele.
Teine on kohaliku täitmise ja üldise strateegia eraldamine. Konkreetne katse võib nõuda väikeseid koodimuudatusi, silumist, testi käivitamist ja logide lugemist. Kuid strateegiline otsus peab arvestama kogu puu tõendeid, mitte ainult viimase katse muljet.
Kolmas on vahe tegemine uuriva paranemise ja tõendatud paranemise vahel. Optimeerimisülesannetes võib mõni muudatus parandada tulemust ainult juhuslikult või üle sobitada konkreetse katse külge. Arbor püüab lubada edasi ainult neid parandusi, millel on piisav tõend ja mis parandavad held-out tulemust.
See viimane punkt on eriti tähtis masinõppe arendusülesannetes. Mudel või agent võib leida triki, mis parandab üht mõõdikut, kuid ei üldistu. Hüpoteesipuu aitab selliseid juhtumeid paremini eristada, sest tulemus seotakse katseolude ja tõenditega.
Kuidas Arborit testiti?
Teadlased hindasid Arborit autonoomse optimeerimise ülesannetes. Agent sai algse uurimisartefakti, näiteks andmetöötluse toru, hindamisraamistiku või treeninguskripti, ning pidi seda korduvate katsete abil parandama ilma inimese samm-sammulise juhendamiseta.
Ülesanded jagunesid kolme põhitüüpi. Esimene oli mudelitreening, kus tuli parandada treeninguretsepte ja hüperparameetreid. Teine oli harness engineering ehk hindamis- või treeninguraamistiku täiustamine. Kolmas oli andmesüntees, kus eesmärk oli luua paremaid andmeid treeninguks või hindamiseks.
Tulemuste järgi saavutas Arbor kõigil kuuel päriselulisel uurimisülesandel parima held-out tulemuse. Autorite väitel ületas Arbor Codexi ja Claude Code’i keskmise suhtelise held-out paranemise üle 2,5 korra sama ülesandeliidese ja ressursieelarve juures.
Lisaks testiti raamistikku MLE-Bench Lite’il, kus Arbor koos GPT-5.5-ga saavutas 86,36 protsenti Any Medal tulemuse. See viitab, et hüpoteesipuu ei aita ainult ühes kitsas katses, vaid võib parandada pika optimeerimistöö üldist korraldust.
Miks 2,5-kordne paranemine ei tähenda, et agent on „teadlane”?
Tulemust tuleb tõlgendada ettevaatlikult. Arbor parandab seda, kuidas agent korraldab katseid ja õpib varasematest tulemustest. See ei tähenda, et agent mõistab teadust inimesega samal viisil või et ta suudab iseseisvalt vastutada uurimisprogrammi eest.
Autonoomne optimeerimine on piiritletud ülesanne. Agentil on algne artefakt, mõõdetav eesmärk ja ressursieelarve. Päris teadustöö on laiem: eesmärgid muutuvad, andmed võivad olla vigased, mõõdikud võivad olla halvasti valitud ja mõni tulemus vajab erialast tõlgendust.
Seetõttu on Arbori väärtus eelkõige protsessis. Ta näitab, et agentide jõudlust saab parandada mitte ainult parema mudeliga, vaid parema töömälu, parema katselogika ja parema auditeeritavusega.
See on oluline sõnum kogu koodiagentide turule. Kui töö on pikk ja ebakindel, ei piisa kiirest koodi kirjutamisest. Vaja on uurimisstruktuuri.
Eksperdi vaade: järgmine samm on tõendite kogumine ajas
Info-Tech Research Groupi uurimisjuht Mahmoud Ramin märkis InfoWorldile, et Arbori väärtus seisneb võimes koguda infot ajas ja ehitada varasematele avastustele. Tema hinnangul võimaldab see agentidel toimida sarnasemalt inimestele: õppida, kohaneda ja kasutada varem omandatud teadmist järgmistes katsetes.
Ramin tõi samas esile ka auditeeritavuse riski. Kui autonoomsed agendid muutuvad võimekamaks ja tegutsevad ilma inimese pideva jälgimiseta, vajavad ettevõtted läbipaistvust selle kohta, miks agent konkreetse tegevuse valis või kuidas ta mingi järelduseni jõudis.
See on Arbori puhul keskne küsimus. Hüpoteesipuu võib parandada auditijälge, sest iga idee, katse ja tulemus seotakse struktuuri. Kuid mida suuremaks puu kasvab, seda tähtsam on, et inimene suudaks seda hiljem mõista. Vastasel juhul muutub hüpoteesipuu ise uueks mustaks kastiks.
Arbor ja vibe coding: miks see on arendustöö jaoks oluline?
Vibe coding’u esimeses laines oli põhirõhk kiirusel. Kasutaja kirjeldas, mida ta tahab, ning agent või koodiassistent ehitas esimese versiooni. See töötab hästi lühikeste ja selgelt piiritletud ülesannete puhul.
Pikemates projektides ilmneb aga sama probleem, mida Arbor püüab lahendada. Agent parandab üht faili, rikub teise, proovib vana lahendust uuesti, unustab kasutaja varasema otsuse või kaotab põhjenduse, miks mingi arhitektuurivalik tehti. Mida suurem projekt, seda olulisem on mälu, otsustusajalugu ja katsete eristamine.
Arbori loogika võiks seetõttu mõjutada ka praktilist vibe coding’u töövoogu. Hea projektikaart, MVP piirid, mitte-skoop, katselogid ja otsustuspäevik täidavad inimese juhitud projektis sarnast rolli nagu hüpoteesipuu autonoomses agendis. Need hoiavad ära olukorra, kus ehitamine muutub katkendlikuks ja korduvaks.
Ettevõtte vaates tähendab see, et koodiagent ei peaks lihtsalt „tegema järgmise muudatuse”. Ta peaks teadma, milliseid lahendusi on juba proovitud, miks need tagasi lükati, millised mõõdikud paranesid ja milline risk jäi alles.
Uurimisagentide turg liigub mälu ja orkestreerimise poole
Arbor ei ole ainus märk sellest, et agentide järgmine arenguetapp on orkestreerimine, mitte ainult üksiku mudeli võimekus. Turul liiguvad sama suuna poole tööriistad, mis jagavad ülesanded alamagentideks, hoiavad pikemat projekti olekut, kasutavad eraldatud tööharusid ja seovad katsetulemused otsustusloogikaga.
See areng on loogiline. Kui agent peab töötama tundide või päevade kaupa, ei saa ta olla lihtsalt vestlusaken, mis annab järgmise käsu. Ta vajab töömälu, versioonihaldust, testikeskkonda, mõõdikuid, otsustuspõhjendusi ja viisi, kuidas ebaõnnestunud katsetest õppida.
Arbori hüpoteesipuu on üks võimalik vastus. Teistes süsteemides võib sama rolli täita plaanipuu, ülesandegraaf, katselogi, projektimälu või agentide orkestreerimise raamistik. Põhimõte on sama: pikem töö vajab püsivat struktuuri.
Riskid: vale mõõdik, ülekohandamine ja vastutus
Arbori suurim tugevus on ka selle risk. Kui agent optimeerib kindla mõõdiku järgi, võib ta leida viise mõõdiku parandamiseks ilma tegelikku kvaliteeti parandamata. Seda probleemi tuntakse masinõppes hästi: kui mõõdik muutub eesmärgiks, võib süsteem õppida mõõdikut ära kasutama.
Autorid püüavad seda vähendada, eristades uurivat ja tõendatud paranemist ning keskendudes held-out tulemusele. Kuid päris arendustöös on mõõdikute valik endiselt inimese vastutus. Halb mõõdik võib viia kiiresti halva optimeerimiseni.
Teine risk on kulude kasv. Hüpoteesipuu, mitu täitjat ja eraldatud katsed võivad anda parema tulemuse, kuid vajavad arvutusressurssi. Kui ettevõte ei sea eelarvet, võib autonoomne optimeerimine muutuda kalliks.
Kolmas risk on omanikuvastutus. Kui agent teeb kümneid katseid ja ühendab lõpuks ühe paranduse, peab inimene aru saama, miks see parandus valiti. Tootmiskoodis ei piisa väitest „agent leidis parema tulemuse”. Vajalik on ülevaade muudatustest, testidest, mõjust ja kõrvalriskidest.
Mida ettevõtted peaksid Arborist õppima?
Arbori praktiline õppetund ei ole see, et kõik ettevõtted peaksid kohe sama raamistikku kasutama. Olulisem on põhimõte: agentide töö peab olema kumulatiivne ja auditeeritav.
Kui ettevõte kasutab koodiagente arenduses, peaks ta nõudma vähemalt nelja asja. Esiteks peab agent pidama arusaadavat otsustelogi. Teiseks peab iga katse olema seotud konkreetse hüpoteesi ja mõõdikuga. Kolmandaks peavad ebaõnnestumised säilima, mitte kaduma vestlusajaloosse. Neljandaks peab lõplik muudatus olema põhjendatud tõenditega, mitte ainult üldise enesekindla selgitusega.
Need nõuded ei ole ainult tehnilised. Need on juhtimisnõuded. Kui agent hakkab mõjutama tootmiskoodi, mudelitreeningut või andmetöötlust, peab organisatsioon suutma hiljem vastata küsimusele: miks see muudatus tehti?
Eesti arendajatele ja ettevõtetele: vähem kordamist, rohkem otsustepäevikut
Eesti ettevõtetes kasutatakse koodiassistente üha rohkem, kuid sageli lühikeste ülesannete tasemel: kirjuta komponent, paranda viga, tee päring, loo vorm. Pikemates projektides muutub peamiseks probleemiks järjepidevus. Agent ei tea alati projektikaarti, varasemaid kompromisse ega seda, miks mõni valik kõrvale jäeti.
Arbori mõte sobib hästi ka väiksemasse arendustöösse. Iga projekt peaks säilitama lihtsa otsustepuu või katselogi: millist lahendust prooviti, mis mõõdikuga seda hinnati, miks see sobis või ei sobinud ja mida järgmiseks teha. See ei pea olema keeruline teadusraamistik. Ka lihtne decisions.md, testitulemuste tabel või projektikaardi lisa võib vähendada korduvaid vigu.
Vibe coding’u õpetamisel on see oluline. Algaja kipub sageli andma agendile järjest uusi käske, kuid ei hoia alles põhjendusi. Tulemuseks on ringiratast ehitamine. Arbor näitab, et paremad tulemused tulevad siis, kui iga katse kasvatab teadmist, mitte ei kao järgmise prompti alla.
Kokkuvõte
Arbor pakub koodiagentide jaoks olulist arhitektuurilist ideed: pikk autonoomne töö peab toimuma püsiva hüpoteesipuu ümber. Agent ei peaks lihtsalt järjest katseid tegema, vaid säilitama, milliseid hüpoteese prooviti, millised tulemused saadi ja millised õppetunnid järgmisi samme juhivad.
Teadlaste tulemused on tugevad. Sama ressursieelarve juures saavutas Arbor üle 2,5 korra suurema keskmise held-out paranemise kui Codex ja Claude Code ning oli parim kõigil kuuel testitud uurimisülesandel. See näitab, et agentide jõudlust saab kasvatada mitte ainult mudeli vahetamisega, vaid tööprotsessi parema korraldamisega.
Samas ei tee Arbor agentidest iseseisvaid teadlasi ega vabasta inimest vastutusest. Hüpoteesipuu parandab mälu ja auditijälge, kuid inimene peab endiselt määrama eesmärgid, kontrollima mõõdikuid, hindama riske ja otsustama, millised muudatused sobivad tootmisse.
Arbori laiem tähendus on seetõttu praktiline. Koodiagentide järgmine areng ei seisne ainult kiiruses. See seisneb võimes õppida oma katsetest, vältida samade vigade kordamist ja jätta maha kontrollitav rada sellest, kuidas tulemuseni jõuti.
Korduma kippuvad küsimused
Mis on Arbor?
Arbor on autonoomse uurimistöö ja koodiagentide raamistik, mis kasutab püsivat hüpoteesipuud. See seob omavahel ideed, koodimuudatused, katsetulemused ja õppetunnid, et agent ei kordaks samu vigu.
Kes Arbori lõid?
Arbori tutvustasid Renmini Ülikooli Gaolingi tehisintellekti kooli ja Microsoft Researchi teadlased.
Mis on hüpoteesipuu?
Hüpoteesipuu on struktuur, kus iga haru kirjeldab üht võimalikku uurimissuunda. Iga sõlm seob hüpoteesi, selle testimiseks kasutatud koodi või konfiguratsiooni, katsetulemused ja kokkuvõtliku õppetunni.
Kuidas Arbor erineb tavalisest koodiagendist?
Tavaline koodiagent võib teha järjest katseid, kuid ei pruugi pikalt säilitada, mis töötas ja mis ebaõnnestus. Arbor hoiab uurimisoleku alles ning kasutab varasemaid tulemusi järgmiste hüpoteeside valimiseks.
Kui hästi Arbor töötas?
Teadlaste järgi saavutas Arbor kuuel päriselulisel autonoomse optimeerimise ülesandel parima held-out tulemuse ning ületas Codexi ja Claude Code’i keskmise suhtelise paranemise üle 2,5 korra sama ressursieelarve juures.
Miks see on ettevõtetele oluline?
Kui koodiagendid hakkavad mõjutama tootmiskoodi või andmetöötlust, peab ettevõte nägema, miks agent mingi muudatuse tegi, milliseid katseid ta proovis ja millised tõendid tulemust toetavad. Arbori põhimõte aitab muuta agentide töö auditeeritavamaks.
Saa järgmine AI-RADAR postkasti
Kui järgmine praktiline AI-signaal või tööriistamuutus avaldatakse, saad selle otse e-postile.
Arutelu
0 kommentaari
Seotud teemad AI-RADARis

Retool tahab muuta vibe coding’u ettevõtetele ohutumaks: AI-ga loodud rakendused saavad keskse juhtimiskihi
Retool lubab AI-koodi tööriistadega loodud rakendused tuua tootmisse keskse juhtimise, õiguste ja auditiga. Uuringu järgi kardab 93% juhtidest vibe-coded tööriistu tootmises.

Databricks tahab muuta vibe coding’u ettevõtetele kasutatavaks: kiirusele lisatakse õigused, andmekontekst ja kulukontroll
Databricks lisab vibe coding’u ettevõtte sisearendusse andmekonteksti, õigused, turbe ja kulukontrolli App Spacesi, Genie App Builderi ja Serverless Micro Appside abil.

SpaceX ostab Cursori 60 miljardi dollari eest: Musk viib kosmosefirma tehisaru koodisõtta
SpaceX ostab Cursori arendava Anysphere'i 60 miljardi dollari eest aktsiatehinguga. Tehing tugevdab xAI ja Groki positsiooni tehisaru kooditööriistade turul.