Yale’i teadlased pakuvad tehisarule copyleft-reegleid: avatud lähtekood ei peaks kaduma suletud mudelitesse
Yale’i Digital Ethics Centeri teadlased pakuvad CCAI-litsentsi, mis laiendaks copyleft’i põhimõtteid tehisaru mudelitele. Eesmärk on tagada, et avatud lähtekoodil treenitud mudelid jääksid läbipaistvaks.
CCAI ettepanek näitab, et avatud lähtekoodi ja tehisaru suhe liigub litsentside, läbipaistvuse ja mudelite päritolu üle peetava vaidluse keskmesse.

Yale’i Digital Ethics Centeri teadlased pakuvad uut litsentsiraamistikku, mis seoks avatud lähtekoodiga tarkvara kasutamise tehisaru mudelite treenimisel senisest rangemate läbipaistvusnõuetega. Nende ettepanek kannab nime Contextual Copyleft AI License ehk CCAI.
Mõte on lihtne, kuid õiguslikult vaieldav: kui tehisaru mudel treenitakse copyleft-litsentsiga avatud lähtekoodil, peaks ka sellest mudelist tulenev süsteem jääma avatud ja läbipaistvaks. Arendaja ei tohiks võtta avatud kogukonna koodi, kasutada seda suletud mudeli ehitamiseks ja seejärel jätta mudeli arhitektuuri, treeningandmed ning muud olulised osad avalikkuse eest varjatuks.
Uuring avaldati ajakirjas International Journal of Law and Information Technology. Autorid on Grant Shanklin, Emmie Hine, Claudio Novelli, Tyler Schroder ja Luciano Floridi. Nad väidavad, et copyleft’i põhimõtte laiendamine generatiivsetele mudelitele võiks anda avatud lähtekoodi arendajatele rohkem kontrolli selle üle, kuidas nende tööd kasutatakse.
Grant Shanklini sõnul näitab analüüs, et copyleft’i mõiste laiendamine tehisarule võib aidata luua kogukonda, mis ehitab mudeleid kooskõlas vaba ja avatud lähtekoodi liikumise väärtustega. Claudio Novelli lisas, et paljud ettevõtted on saanud kasu avatud lähtekoodist, kuid nende mudelid ei ole tegelikult avatud.
Mis on copyleft?
Copyleft on avatud lähtekoodi litsentsimispõhimõte, mis pöörab tavapärase autoriõiguse loogika osaliselt ümber. Tavaliselt annab autoriõigus õiguse teost piirata. Copyleft kasutab autoriõigust selleks, et hoida tuletatud teosed samuti avatuna.
Tuntud näide on GNU GPL. Kui keegi kasutab GPL-litsentsiga tarkvara oma projektis ja levitab sellest tuletatud tarkvara, peab ka uus tarkvara vastama GPL-i tingimustele. Eesmärk on vältida olukorda, kus keegi võtab kogukonna töö, ehitab selle peale suletud toote ja ei anna parandusi või edasiarendusi tagasi.
Yale’i teadlased küsivad nüüd, kas sama põhimõtet saab rakendada tehisaru mudelitele. Kui mudel treenitakse avatud lähtekoodil, kas mudel peaks olema käsitatav tuletatud teosena? Kui jah, siis võiks avatud lähtekoodi litsents nõuda ka mudeli oluliste osade avalikustamist.
Mida CCAI nõuaks?
Yale’i teadlaste pakutud CCAI-litsents seaks tingimuse, et avatud lähtekoodiga treeningandmetel põhinev mudel peab jääma läbipaistvaks. See võiks tähendada nõuet avaldada mudeli arhitektuur, treeningandmed või vähemalt treeningandmete piisav kirjeldus, treeningprotsess, olulised tehnilised parameetrid ning muud osad, mida on vaja mudeli mõistmiseks, hindamiseks ja edasiarendamiseks.
Praktiline eesmärk oleks vältida niinimetatud open washing’ut. See tähendab olukorda, kus ettevõte nimetab oma mudelit avatuks, kuid jätab suletuks andmestiku, treeningkoodi, ohutustestid, piirangud või kommertstingimused. Kasutaja näeb ainult osa süsteemist, kuid ei saa seda päriselt uurida, korrata ega vabalt muuta.
See vaidlus on muutunud teravaks, sest paljud „avatud” mudelid on tegelikult avatud ainult osaliselt. Mõnel juhul on avalikud mudeli kaalud, kuid mitte treeningandmed. Mõnel juhul on mudelit lubatud kasutada, kuid mitte teatud ärilistel eesmärkidel. Mõnel juhul on lähtekood nähtav, kuid andmete päritolu jääb ebaselgeks.
Open Source Initiative’i 2024. aastal avaldatud Open Source AI Definition rõhutab, et avatud tehisaru peab võimaldama süsteemi kasutada, uurida, muuta ja jagada. Selleks ei piisa ainult mudeli kättesaadavusest; vaja on ka infot andmete, koodi ja parameetrite kohta, mis võimaldab süsteemi tegelikult mõista ja muuta.
Miks see on avatud lähtekoodi kogukonnale tähtis?
Avatud lähtekood on tänapäevase tehnoloogia alus. Operatsioonisüsteemid, veebiserverid, andmebaasid, programmeerimisraamistikud, pilveteenused, teadustarkvara ja arendustööriistad sõltuvad suurel määral vabalt kasutatavast ja muudetavast koodist.
Tehisaru ettevõtted on sellest ökosüsteemist palju kasu saanud. Mudelite treenimisel kasutatakse sageli avalikku koodi, dokumentatsiooni, küsimuste-vastuste kogusid, GitHubi projekte, programmeerimisnäiteid ja avatud tarkvara käsiraamatuid. Kui neist andmetest luuakse suletud mudelid, tekib kogukonna jaoks küsimus: miks peaks avatud arendajad andma oma töö tasuta sisendiks süsteemidele, mis ei anna midagi tagasi?
CCAI püüab sellele vastata. See ei ütle, et tehisaru arendajad ei tohiks avatud koodi kasutada. Pigem ütleb see, et kui nad kasutavad kindla copyleft-tingimusega koodi mudeli treenimiseks, tuleb tulemus avada samas vaimus.
Selline lähenemine annaks arendajatele võimaluse valida. Kui nad tahavad, et nende koodi saaks kasutada ainult sellistes mudelites, mis jäävad läbipaistvaks, võiks CCAI anda selleks õigusliku tööriista.
Suur õiguslik küsimus: kas treenimine on tuletatud teos?
Yale’i teadlaste ettepanek sõltub ühest keerulisest eeldusest: tehisaru mudel, mis on treenitud avatud lähtekoodil, võib olla käsitatav tuletatud teosena. Kui see nii on, saab copyleft-litsents nõuda, et ka mudel järgiks vastavaid tingimusi.
See ei ole tänases õiguses lõplikult selge. Paljud tehisaru ettevõtted väidavad, et mudelite treenimine on andmete analüüsimine ja võib teatud juhtudel mahtuda fair use’i ehk õiglase kasutuse alla, eriti Ameerika Ühendriikides. Kui kohus nõustub, et treenimine on fair use, muutub CCAI jõustamine palju keerulisemaks.
Uuringu autorid tunnistavad seda piiri. Nende hinnangul on CCAI õiguslikult teostatav eeldusel, et mudeli treenimine ei ole fair use’i kaitse all või et vähemalt teatud treeningandmete kasutus loob litsentsikohustuse.
Seetõttu ei ole CCAI valmis lahendus kõigile autoriõiguse vaidlustele. Pigem on see ettepanek, kuidas avatud lähtekoodi kogukond võiks oma põhimõtteid kohandada olukorras, kus koodi väärtus ei avaldu enam ainult tarkvaras, vaid ka mudelites, mida selle põhjal treenitakse.
Avatud mudel võib olla kasulik, kuid riskid on suuremad
Yale’i teadlased rõhutavad, et päriselt avatud mudelitel on mitu eelist. Need võimaldavad paremat auditeerimist, vigade leidmist, kallutatuse uurimist, sõltumatut ohutustööd ja laiemat innovatsiooni. Kui mudeli andmed ja arhitektuur on nähtavad, saavad teadlased, arendajad ja ühiskond paremini hinnata, kuidas süsteem töötab.
Samas on generatiivsetel mudelitel suurem riskiprofiil kui tavalisel tarkvaral. Avatud mudelit saab kasutada ka kahjulikeks eesmärkideks: petturlike kirjade koostamiseks, pahavara arendamise abistamiseks, manipuleeriva sisu loomiseks või valeinfo levitamiseks.
Autorid ei eita seda riski. Nad väidavad, et CCAI peaks toimima koos regulatsiooniga, mitte selle asemel. Euroopa Liidu tehisaru määrus keelab teatud manipuleerivad, eksitavad ja ärakasutavad kasutusviisid, mis kahjustavad inimese käitumist või otsustusvabadust. Sellised reeglid võivad vähendada avatud mudelite väärkasutuse ohtu, kuid ei kõrvalda seda täielikult.
See eristab tehisaru varasemast avatud lähtekoodist. Kui avatud tarkvara puhul peeti läbipaistvust sageli peaaegu automaatselt heaks, siis avatud mudelite puhul tuleb lisaks küsida, kes saab mudelit kasutada, milleks ja milliste kaitsemehhanismidega.
Open washing on muutunud tõsiseks probleemiks
Tehisaru turul kasutatakse sõna „avatud” väga erinevalt. Mõni ettevõte avaldab mudeli kaalud, kuid mitte treeningandmeid. Mõni lubab mudelit alla laadida, kuid keelab osa kasutusviise. Mõni räägib avatusest, kuid jätab suletuks suure osa arendusprotsessist.
Open Source Initiative on püüdnud seda segadust vähendada. Organisatsiooni Open Source AI Definition 1.0 eristab avatud ligipääsu, avatud kaale ja päriselt avatud tehisaru. Selle järgi ei ole mudel täielikult avatud ainult seetõttu, et kasutaja saab seda alla laadida või proovida. Vaja on õigusi ja infot, mis võimaldavad süsteemi uurida, muuta ja jagada.
CCAI sobitub sellesse laiemasse vaidlusesse. Yale’i teadlased tahavad muuta avatud lähtekoodi kasutamise tingimused selliseks, et ettevõtted ei saaks avatud kogukonna tööd võtta ja seejärel esitleda osaliselt suletud mudelit „avatuna”.
Mõju ettevõtetele ja arendajatele
Kui CCAI-laadne litsents leviks, peaksid tehisaru arendajad palju täpsemalt jälgima, millist koodi ja milliseid andmeid nad treeninguks kasutavad. Pelgalt andmete kogumisest enam ei piisaks. Tuleks teada, millised litsentsid andmetel on ja kas need võivad mudelile edasi kanduda.
See muudaks mudeliarenduse keerukamaks. Suured treeningandmestikud sisaldavad sageli miljardeid faile, koodikatkeid ja dokumente. Kui osa neist on copyleft-tingimustega, võib tekkida kohustus avada kogu mudel või jätta vastav materjal treeningust välja.
Ettevõtete jaoks on see risk, kuid avatud lähtekoodi arendajate jaoks võimalus. Kui nad soovivad vältida oma töö kasutamist suletud mudelite treenimiseks, annaks CCAI neile tugevama signaali ja võimaliku õigusliku aluse.
Samas võib liiga range lähenemine vähendada avatud koodi kasutust treeningandmetes. Mõni ettevõte võib eelistada sellist koodi üldse vältida, et mitte võtta litsentsiriski. See võib vähendada avatud lähtekoodi nähtavust mudelites ja suunata ettevõtteid rohkem eraandmestike või litsentsitud andmete poole.
Euroopa jaoks sobib ettepanek laiema suveräänsuse aruteluga
Euroopa arutelus on avatud mudelitel eriline roll. Euroopa ei suuda praegu täielikult konkureerida Ameerika suurimate suletud mudelite rahastuse ja taristuga. Seetõttu nähakse avatud ja läbipaistvates mudelites võimalust tugevdada teadust, väikeettevõtteid, avalikku sektorit ja keelelisi erivajadusi.
Samas on Euroopa reguleeriv keskkond rangem. Tehisaru määrus, andmekaitse üldmäärus ja autoriõiguse nõuded seavad mudelitele selgema vastutuse. CCAI võiks teoreetiliselt toetada Euroopa suunda: rohkem läbipaistvust, vähem eksitavat avatuse väidet ja tugevam kontroll andmete päritolu üle.
Eesti jaoks on küsimus samuti praktiline. Väikese keele ja väikese turu puhul sõltub palju sellest, kas avatud mudelid lubavad kohalikku kohandamist, auditeerimist ja kasutamist avalikus sektoris. Kui mudel on ainult osaliselt avatud, võib seda küll proovida, kuid selle usaldusväärne kasutuselevõtt kriitilistes töövoogudes on keerulisem.
Kas CCAI võiks päriselt jõustuda?
CCAI ei ole praegu üldkehtiv standard ega kohtus testitud lahendus. Selle mõju sõltub sellest, kas arendajad võtavad sellise litsentsi kasutusele, kas mudeliarendajad seda austavad ja kuidas kohtud hindavad treeningandmete autoriõiguslikku staatust.
Selle suurim väärtus võib esialgu olla poliitiline ja normatiivne. See sunnib küsima, mida tähendab avatud lähtekood tehisaru ajastul. Kas avatus lõpeb hetkel, mil kood läheb treeningandmestikku? Või peaks avatud lähtekoodi põhimõte liikuma edasi ka mudelisse, mis sellest kasu saab?
Need küsimused muutuvad järjest olulisemaks, sest tehisaru tööriistad loovad juba praegu koodi, dokumentatsiooni ja tarkvaraarhitektuuri. Kui avatud lähtekoodi kogukond ei kehtesta uusi reegleid, võivad suured mudeliarendajad võtta avalikust ökosüsteemist väärtust ilma vastastikkuseta.
Kokkuvõte
Yale’i teadlaste CCAI ettepanek püüab tuua copyleft’i põhimõtte tehisaru ajastusse. Selle keskne mõte on, et avatud lähtekoodil treenitud mudel ei tohiks muutuda suletud ja läbipaistmatuks tooteks. Kui kogukonna töö aitab mudeli luua, peaks kogukonnal olema õigus näha, uurida ja edasi arendada ka tulemust.
Ettepanek ei lahenda kõiki õiguslikke vaidlusi. Selle jõud sõltub sellest, kas mudeli treenimist käsitatakse fair use’ina, kas kohtud näevad mudelit tuletatud teosena ja kas arendajad võtavad sellise litsentsi omaks. Samuti tuleb arvestada avatud mudelite väärkasutuse riskiga.
Ometi on CCAI oluline märk. Tehisaru arenduse põhiküsimus ei ole enam ainult mudelite võimekus, vaid ka päritolu, läbipaistvus ja vastastikkus. Avatud lähtekoodi kogukond on aastakümneid kandnud digimaailma alustaristut. Yale’i ettepanek küsib, kas sama kogukond peaks nüüd saama tugevama sõnaõiguse ka mudelite üle, mida selle töö abil ehitatakse.
Korduma kippuvad küsimused
- Mis on CCAI? CCAI ehk Contextual Copyleft AI License on Yale’i teadlaste pakutud litsentsiraamistik, mis laiendaks copyleft’i põhimõtteid tehisaru mudelitele. Selle järgi peaks avatud lähtekoodil treenitud mudel jääma läbipaistvaks ja avatuks.
- Mis on copyleft? Copyleft on litsentsimispõhimõte, mis lubab tarkvara kasutada, muuta ja levitada, kuid nõuab, et sellest tuletatud teosed jääksid samuti avatuks samadel või sarnastel tingimustel.
- Miks see tehisaru puhul oluline on? Paljud tehisaru mudelid kasutavad treeningus avatud lähtekoodi, kuid tulemuseks olevad mudelid võivad olla suletud. CCAI püüab vältida olukorda, kus avatud kogukonna töö kasutatakse ära ilma läbipaistvuse ja vastastikkuseta.
- Kas avatud mudel tähendab sama, mis avatud lähtekood? Mitte alati. Mudel võib olla avalikult kasutatav või selle kaalud võivad olla avatud, kuid see ei tähenda, et treeningandmed, kood, parameetrid ja kasutusõigused oleksid piisavalt avatud. Open Source Initiative eristab avatud ligipääsu, avatud kaale ja päriselt avatud tehisaru.
- Mis on CCAI suurim õiguslik risk? Suurim küsimus on, kas mudeli treenimine avatud lähtekoodil loob tuletatud teose või on see fair use’i ehk õiglase kasutuse kaitse all. Kui treenimine loetakse fair use’iks, võib CCAI jõustamine olla keeruline.
- Kas avatud tehisaru mudelid võivad olla ohtlikud? Jah. Avatud mudelid parandavad läbipaistvust ja innovatsiooni, kuid neid võib kasutada ka kahjulikeks eesmärkideks, näiteks pettuste, valeinfo või küberrünnete toetamiseks. Seetõttu rõhutavad Yale’i teadlased, et avatus peab käima koos regulatsiooni ja vastutustundliku kasutusega.
Saa järgmine AI-RADAR postkasti
Kui järgmine praktiline AI-signaal või tööriistamuutus avaldatakse, saad selle otse e-postile.