B
Buildrya
Tagasi AI-RADARisse
AI uudised10 min lugemist

OpenAI tutvustas LifeSciBenchi: uus test mõõdab, kas tehisaru suudab aidata päris bioteaduses

OpenAI tutvustas LifeSciBenchi, 750 eksperdi koostatud ülesandega bioteaduste hindamisraamistikku. GPT-Rosalind sai parima tulemuse, kuid läbis vaid 36,1 protsenti realistlikest teadusülesannetest.

Mõju

LifeSciBench annab bioteaduste AI-le realistlikuma mõõdupuu: mudelid võivad teadustööd toetada, kuid keerukate ravimiarenduse ja eksperimentaalse disaini otsuste iseseisev tegemine jääb veel nõrgaks.

OpenAI tutvustas LifeSciBenchi: uus test mõõdab, kas tehisaru suudab aidata päris bioteaduses

OpenAI tutvustas LifeSciBenchi, uut bioteaduste hindamisraamistikku, mis püüab mõõta, kas keelemudelid suudavad hakkama saada päris teadustööle sarnaste ülesannetega. Erinevalt tavapärastest bioloogiaeksamitest ei küsi LifeSciBench ainult fakte ega üksikuid õigeid vastuseid. See paneb mudelid olukordadesse, kus tuleb tõlgendada ebatäielikku tõendusmaterjali, teha mitmeastmelisi otsuseid, hinnata riske ja anda teadlasele praktiliselt kasutatav vastus.

Raamistik koosneb 750 eksperdi koostatud ülesandest. Need katavad seitset töövoogu ja seitset bioloogilist valdkonda. Ülesannete loomises osales 173 doktorikraadiga teadlast, kellel oli kogemus biotehnoloogia või farmaatsiatööstuse teadusprogrammidest. Sõltumatu kvaliteedikontrolli andsid 453 ekspertretsensenti.

OpenAI sõnum on selge: kui tehisaru peab aitama ravimiarenduses, genoomikas, valguteaduses, katsete planeerimises või translatsioonilises meditsiinis, ei piisa enam sellest, et mudel oskab vastata õpikuküsimusele. Ta peab suutma tegutseda sarnaselt teadusliku koostööpartneriga: lugeda taustamaterjali, hinnata ebakindlust, siduda eri tõendeid ja teha ettepanek, millega inimene saab edasi töötada.

LifeSciBench näitab, et mudelid on selles suunas liikunud, kuid ei ole veel usaldusväärsed iseseisvad teadusagendid. Parim hinnatud süsteem, GPT-Rosalind, läbis 36,1 protsenti ülesannetest. See on edasiminek GPT-5.5-ga võrreldes, mille läbimismäär oli 25,7 protsenti, kuid tulemus näitab samal ajal, et suurem osa realistlikest teadusülesannetest jääb mudelitele veel raskeks.

Miks senistest bioloogia testidest ei piisa?

Paljud varasemad bioteaduste testid on mõõtnud teadmisi kitsalt: kas mudel teab õiget fakti, leiab õige termini, valib õige vastuse või teeb puhta andmeanalüüsi. Sellised testid on kasulikud, kuid need ei kirjelda hästi teadlase igapäevatööd.

Päris uurimistöö on harva puhas küsimus ühe õige vastusega. Teadlane peab sageli otsustama, kas katsetulemus on usaldusväärne, kas biomarker sobib edasiarenduseks, kas loomamudeli leid on tõlgitav inimesse, milline katse tuleks järgmisena teha või milline risk võib ravimikandidaadi arendust pidurdada.

LifeSciBench on loodud just selle vahe mõõtmiseks. Uuringu autorid rõhutavad, et bioteaduste töö nõuab ebamäärase tõendusmaterjali kaalumist, keerukate katsete planeerimist ja otsustamist olukorras, kus täielikku kindlust ei ole.

See muudab hindamise raskemaks. Mudel ei saa lihtsalt anda „õiget sõna”. Ta peab näitama, kas oskab kasutada õigeid tõendeid, sõnastada eeldusi, teha arvutusi, lisada piiranguid ja anda teaduslikult põhjendatud soovituse.

Seitse töövoogu ja seitse bioloogilist valdkonda

LifeSciBench jagab ülesanded seitsmesse teadustöö töövoogu. Need on tõendusmaterjali käsitlemine, analüüs, disain ja optimeerimine, teaduslik arutlus, valideerimine ja operatsioonid, translatsioon ning teaduskommunikatsioon.

Need kategooriad kirjeldavad seda, mida bioteadlane tegelikult teeb. Tõendusmaterjali käsitlemine tähendab artiklite, jooniste, regulatiivsete dokumentide või katsetulemuste lugemist ja võrdlemist. Analüüs hõlmab statistikat, arvutusi ja mehhanistlikku tõlgendust. Disain ja optimeerimine puudutavad molekule, katseid, protokolle, konstrukte või sõelumisstrateegiaid. Translatsioon seob laboriandmed kliinilise tähenduse, ohutuse ja ravimiarenduse otsustega.

Bioloogilised valdkonnad on samuti laiad: genoomika, meditsiiniline keemia, valgu- ja struktuuribioloogia, molekulaar- ja rakubioloogia, katsed ja sõelumine, bioinformaatika ning kliiniline ja translatsiooniline teadus.

See teeb LifeSciBenchist ühe laiahaardelisema katse hinnata, kas mudelid saavad hakkama mitte ainult bioloogia teadmistega, vaid bioteaduse tööga.

Ülesanded sisaldavad päris teadusmaterjale

LifeSciBenchi üks olulisemaid erinevusi on lisamaterjalide kasutamine. Kokku sisaldab raamistik 1062 ülesande artefakti: jooniseid, PDF-e, tabeleid, järjestusfaile, molekulaarstruktuure, keemilisi faile ja veebiviiteid. Üle poole ülesannetest nõuab vähemalt ühe sellise lisamaterjali tõlgendamist.

See on kriitiline, sest teadustöö ei toimu ainult tekstiväljal. Teadlane loeb artikleid, uurib geele, vaatab mikroskoopia pilte, analüüsib järjestusfaile, võrdleb tabeleid ja kontrollib struktuure. Kui mudel ei suuda selliseid allikaid usaldusväärselt kasutada, jääb ta laboritöö ja ravimiarenduse tegelikus töövoos piiratuks.

OpenAI raporti järgi langeb mudelite jõudlus selgelt siis, kui ülesanne ei ole ainult tekstipõhine. GPT-Rosalind läbis tekstipõhistest ülesannetest 45,1 protsenti, kuid artefaktide või URL-idega ülesannetest 28,1 protsenti. GPT-5.5 puhul oli langus 29,9 protsendilt 21,9 protsendini.

See on üks uuringu tähtsamaid järeldusi. Mudelid suudavad järjest paremini koostada teaduslikult veenvaid selgitusi, kuid jäävad nõrgemaks siis, kui peavad keerukast failist või jooniselt õige info välja võtma ja selle põhjal täpse otsuse tegema.

Hindamine toimub rubriikide, mitte ühe õige vastuse järgi

LifeSciBench kasutab iga ülesande jaoks eraldi eksperdi koostatud hindamisrubriiki. Kokku sisaldavad rubriigid 19 020 kriteeriumi, keskmiselt 25 kriteeriumi ühe ülesande kohta.

See on vajalik, sest teadusvastus võib olla osaliselt õige. Mudel võib teha õige üldise järelduse, kuid jätta mainimata olulise katsepiirangu. Ta võib leida õige biomarkeri, kuid teha vale arvutuse. Ta võib anda kliiniliselt mõistliku soovituse, kuid mitte eristada piisavalt ohutuse ja efektiivsuse ebakindlust.

Rubriigipõhine hindamine lubab anda osalist krediiti. See on teaduslikult realistlikum kui lihtne õige-vale kontroll. Samas on ülesande läbimise lävend karm: mudel peab saama vähemalt 70 protsenti konkreetse ülesande võimalikest punktidest.

Selline lähenemine näitab paremini, kus mudel on kasulik ja kus mitte. Vastus võib olla teadlasele abiks, isegi kui see ei läbi kogu ülesannet. Samas ei saa osalist kasulikkust segi ajada valmis teadusliku otsusega.

GPT-Rosalind juhib, kuid tulemused jäävad tagasihoidlikuks

LifeSciBenchi tulemuste järgi oli parim mudel GPT-Rosalind. Selle keskmine normaliseeritud rubriigiskoor oli 0,576 ning ülesannete läbimismäär 36,1 protsenti. GPT-5.5 sai skooriks 0,519 ja läbimismääraks 25,7 protsenti. Gemini 3.1 Pro jäi väga lähedale skooriga 0,515 ja läbimismääraga 23,6 protsenti. GPT-5.4 läbis 20,7 protsenti ja Grok 4.3 13,0 protsenti ülesannetest.

GPT-Rosalind oli parim 386 ülesandel 750-st. Gemini 3.1 Pro juhtis 214 ülesandel, mis näitab, et üldine paremusjärjestus ei räägi kogu lugu. Mõni mudel võib olla tugevam kindlates formaatides, näiteks järjestuste, struktuuride või täpsete konstruktsioonide puhul.

See on teaduskasutuse seisukohalt oluline. Labor või farmaatsiaettevõte ei vaja abstraktselt „parimat mudelit”. Ta vajab mudelit, mis sobib konkreetseks tööks: näiteks katse disainiks, bioinformaatiliseks analüüsiks, molekuli optimeerimiseks või teadusliku kokkuvõtte koostamiseks.

Mudelid on tugevamad selgitamises kui täpses disainis

LifeSciBench näitab, et mudelid on suhteliselt tugevamad teaduslikus sünteesis, translatsioonis ja kommunikatsioonis. GPT-Rosalind parandas GPT-5.5 tulemusi eriti seal, kus tuli siduda bioloogiline või prekliiniline tõendusmaterjal kliiniliste tagajärgede, ohutuse või uuringudisainiga.

Teaduskommunikatsiooni kategoorias oli GPT-Rosalindi läbimismäär 71,1 protsenti, võrreldes GPT-5.5 56,3 protsendiga. See kategooria on väike ja tulemust tuleb tõlgendada ettevaatlikult, kuid suund on selge: mudelid oskavad järjest paremini organiseerida tõendusmaterjali ja esitada eksperdile loetava selgituse.

Nõrgemad kohad on disain, optimeerimine, täpne analüüs ja operatsiooniliselt piiratud ülesanded. GPT-Rosalindi läbimismäär disaini, optimeerimise ja ennustuse töövoos oli 30,7 protsenti ning analüüsis 30,3 protsenti. Eriti keerulised olid ülesanded, mis nõudsid täpseid numbrilisi, järjestus- või struktuuriväljundeid.

See piirang on teadustöös väga tähtis. Ravimiarenduses, CRISPR-i doonoridisainis, siRNA disainis või molekulaarstruktuuri optimeerimises ei piisa üldiselt õigest mõttest. Väljund peab olema piisavalt täpne, et sellega saaks edasi töötada. Väike viga järjestuses või konstruktsioonis võib muuta kogu katse kasutuks.

Märkimisväärne osa ülesannetest jäi kõigile mudelitele lahendamata

LifeSciBench ei ole mudelite jaoks küllastunud test. Ühtegi hinnatud mudelit ei suutnud läbida 171 ülesandel, mis moodustab 22,8 protsenti kogu raamistikust. 261 ülesandel ehk 34,8 protsendil oli isegi parima mudeli läbimismäär alla 20 protsendi.

See näitab, et test jätab ruumi tulevaste mudelite arengule. Samuti näitab see, et bioteadustes kasutatav tehisaru on veel kaugel tööriistast, millele võiks jätta iseseisvalt keerukaid uurimisotsuseid.

Oluline on ka osalise edenemise nähtus. GPT-Rosalind sai 109 ülesandel vähemalt poole rubriigipunktidest, kuigi läbimismäär jäi alla 20 protsendi. Teisisõnu: mudel jõudis sageli osa teest õigesti, kuid ebaõnnestus mõnes kriitilises piirangus, arvutuses, tõendis või lõppotsuses.

See on praktikas ohtlik ja kasulik korraga. Kasulik, sest mudel võib aidata teadlast mõtlemisprotsessis. Ohtlik, sest usutav osaline vastus võib jätta mulje terviklikust lahendusest.

OpenAI arendab teadusmudelit kontrollitud ligipääsuga

LifeSciBench on seotud OpenAI laiemate bioteaduste ambitsioonidega. Aprillis tutvustas ettevõte GPT-Rosalindi, bioteadustele suunatud mudelit, mis on mõeldud toetama tööd bioloogias, ravimiarenduses, meditsiinilises keemias, genoomikas ja valguteaduses. Juunis laiendas OpenAI GPT-Rosalindi võimekust ning teatas, et mudel on uurimise eelvaates kättesaadav sobivatele organisatsioonidele kontrollitud ligipääsu kaudu.

OpenAI on rõhutanud, et ligipääs GPT-Rosalindile ei ole avatud kõigile. Ettevõte kirjeldab seda usaldatud ligipääsu mudelina, mis on mõeldud organisatsioonidele, kellel on õiguspärane teaduslik eesmärk, avalik kasu, tugev juhtimine ja turvakontrollid.

See piirang ei ole juhuslik. Bioteaduste mudelid võivad aidata ravimiarendust ja haiguste mõistmist, kuid bioloogias on ka ohud. Võimsad tööriistad võivad toetada katsete planeerimist, järjestuste tõlgendamist või bioloogiliste süsteemide kujundamist viisil, mis nõuab vastutustundlikku kasutust.

Mida ütlevad teadlased ja partnerid?

OpenAI on rõhutanud, et bioteaduste mudelite väärtus sõltub usaldusväärsest andmest, valideeritud tööriistadest ja päris teadusvoogudesse sobitumisest. Novo Nordiski teadusjuhtide kommentaar OpenAI GPT-Rosalindi laienduse juures oli samas võtmes: bioteaduste uurimistöö on andmerikas, interdistsiplinaarne ja keerukas ning mudelite kasu sõltub sellest, kas need on ühendatud teadlaste tegelike töövoogudega.

See sobib LifeSciBenchi sõnumiga. Mudel ei pea lihtsalt teadma rohkem bioloogiat. Ta peab sobituma labori, andmeanalüüsi, otsustamise ja dokumenteerimise protsessi.

Samas tuleb tulemusi lugeda institutsionaalse ettevaatusega. LifeSciBench on välja töötatud OpenAI poolt ning hinnatud mudelite seas on OpenAI enda mudelid. Uuringu autorid märgivad selle avalikustustes selgelt. See ei muuda tulemusi automaatselt kasutuks, kuid tähendab, et sõltumatu kordushindamine ja teiste laborite testid on vajalikud.

Mida see tähendab ravimiarendusele?

Ravimiarenduses on tehisaru senine lubadus olnud suur: leida sihtmärke, disainida molekule, prognoosida ohutust, kiirendada katseid ja vähendada läbikukkumisi. LifeSciBench annab sellele arutelule realistlikuma mõõdupuu.

Tulemused viitavad, et mudelid võivad olla abiks teadusliku tõendusmaterjali korrastamisel, hüpoteeside hindamisel ja ekspertidele mõeldud kokkuvõtete koostamisel. Nad võivad aidata teadlasel kiiremini näha alternatiive, võimalikke riske ja järgmisi samme.

Kuid mudelid ei ole veel piisavalt usaldusväärsed töödes, kus on vaja täpset konstrukti, ranget operatsioonilist otsust või mitmest keerukast artefaktist tuletatud lõppsoovitust. Just need on paljudes teadusprogrammides kõige kallimad ja riskantsemad kohad.

Seetõttu ei peaks LifeSciBenchi tulemusi lugema kui tõendit, et tehisaru asendab bioteadlase. Pigem näitab see, et mudel võib muutuda tugevamaks teaduslikuks abivahendiks, kui inimene jääb otsustajaks, kontrollijaks ja vastutajaks.

Eesti teadusele ja biotehnoloogiale on sõnum praktiline

Eesti teadusasutuste, tervisetehnoloogia ettevõtete ja biotehnoloogia idufirmade jaoks on LifeSciBench oluline kolmel põhjusel.

Esiteks näitab see, milliseid oskusi tuleks mudelitelt nõuda. Bioteaduses ei piisa ilusast kokkuvõttest. Mudel peab oskama lugeda faile, mõista katsepiiranguid, teha arvutusi, tuua välja ebakindluse ja anda praktiliselt kasutatava soovituse.

Teiseks tuletab LifeSciBench meelde, et teaduslik kvaliteedikontroll ei kao. Kui mudel annab eksperdile osaliselt õige vastuse, peab inimene oskama tuvastada, milline osa on usaldusväärne ja milline mitte.

Kolmandaks näitab test, et kohalikel teadus- ja arendusmeeskondadel on vaja omaenda kasutusjuhtude hindamist. Üldine benchmark võib anda signaali, kuid iga labor, haigla või ettevõte peab hindama mudelit oma andmete, oma töövoo ja oma riskitasemega.

Mida peaks järgmiseks jälgima?

LifeSciBenchi järgmine oluline küsimus on seos päris kasutusega. Uuringu autorid rõhutavad, et benchmark mõõdab iseseisvaid ülesandeid, mitte mudelite mõju elavas teadusprogrammis. Päris uurimistöö on korduv: teadlane küsib, täpsustab, teeb katse, saab uue tulemuse, muudab hüpoteesi ja liigub edasi.

Seetõttu on järgmine samm juurutusuuringud päris teadusvoogudes. Tuleb mõõta, kas mudel kiirendab avastust, vähendab vigu, parandab katseplaneerimist või aitab teha paremaid arendusotsuseid. See on palju keerulisem kui ülesande läbimismäär, kuid teaduse jaoks olulisem.

Samuti tuleb jälgida, kas tulevased mudelid paranevad just nendes kohtades, kus tänased mudelid ebaõnnestuvad: artefaktide tõlgendamine, täpsed väljundid, konstruktsioonide disain, keerukate failide kasutamine ja operatsiooniliselt kasulikud otsused.

Kokkuvõte

LifeSciBench on oluline samm bioteaduste tehisaru hindamises. See viib mõõtmise lähemale päris uurimistööle, kus vastused ei ole alati puhtad, andmed on mitmes formaadis ja otsused nõuavad eksperthinnangut.

Tulemused on korraga lootustandvad ja kainestavad. GPT-Rosalind edestab teisi hinnatud mudeleid ning paraneb eriti teadusliku tõlgendamise, translatsiooni ja kommunikatsiooni ülesannetes. Kuid 36,1-protsendiline läbimismäär näitab, et mudelid ei ole veel valmis iseseisvalt kandma keerukat bioteaduslikku otsustust.

Kõige praktilisem järeldus on see: bioteadustes võib tehisaru olla kasulik koostöövahend, kuid mitte automaatne teadlane. Ta võib aidata tõendeid korrastada, hüpoteese testida ja otsuseid ette valmistada. Lõplik teaduslik vastutus jääb siiski inimesele, eriti siis, kui mängus on ravimiarendus, kliiniline risk või täpne eksperimentaalne disain.

Korduma kippuvad küsimused

Mis on LifeSciBench?

LifeSciBench on OpenAI loodud bioteaduste hindamisraamistik, mis mõõdab, kas keelemudelid suudavad lahendada realistlikke teadustöö ülesandeid, mitte ainult vastata bioloogia faktiküsimustele.

Kui suur on LifeSciBench?

Raamistik sisaldab 750 eksperdi koostatud ülesannet, 1062 lisamaterjali ja 19 020 hindamiskriteeriumi. Ülesanded katavad seitset teadustöö töövoogu ja seitset bioloogilist valdkonda.

Kes ülesanded koostasid?

Ülesanded koostasid 173 doktorikraadiga teadlast, kellel oli kogemus biotehnoloogia või farmaatsiatööstuse teadusprogrammides. Lisaks hindas ülesannete kvaliteeti 453 sõltumatut ekspertretsensenti.

Milline mudel sai parima tulemuse?

Parima tulemuse sai GPT-Rosalind, mille keskmine rubriigiskoor oli 0,576 ja ülesannete läbimismäär 36,1 protsenti. GPT-5.5 läbimismäär oli 25,7 protsenti.

Kus mudelid kõige paremini hakkama said?

Mudelid olid tugevamad teaduslikus sünteesis, translatsioonis ja teaduskommunikatsioonis, eriti seal, kus ülesanne nõudis tõendite korrastamist ja eksperdile sobiva selgituse koostamist.

Kus mudelid kõige rohkem ebaõnnestusid?

Kõige raskemad olid artefaktidega ülesanded, täpsed numbrilised või järjestusväljundid, konstruktsioonide disain, analüüs ja operatsiooniliselt piiratud otsused.

Kas LifeSciBench tõestab, et tehisaru suudab teadlasi asendada?

Ei. LifeSciBench näitab, et mudelid võivad olla kasulikud teadustöö toetamisel, kuid nende töökindlus ei ole veel piisav keerukate bioteaduslike otsuste iseseisvaks tegemiseks.

Saa järgmine AI-RADAR postkasti

Kui järgmine praktiline AI-signaal või tööriistamuutus avaldatakse, saad selle otse e-postile.

Loe edasi

Seotud teemad AI-RADARis