B
Buildrya
Tagasi AI-RADARisse
Tööriistad11 min lugemist

xAI tõi välja Grok Voice’i kõneagentide ehitaja: lubadus on kahe minutiga töötav telefonirobot, tegelik test algab päriskõnedes

xAI avaldas Grok Voice’i Voice Agent Builderi. Selgitame hinda, võimalusi, benchmarke, riske ja tähendust Eesti ettevõtetele.

FacebookXLinkedIn

Mõju

xAI Voice Agent Builder võib teha telefonipõhiste AI-agentide katsetamise kiiremaks, kuid Eesti ettevõtete jaoks jäävad võtmeküsimusteks keel, andmekaitse, tööriistade õigused ja läbipaistvus.

xAI tõi välja Grok Voice’i kõneagentide ehitaja: lubadus on kahe minutiga töötav telefonirobot, tegelik test algab päriskõnedes

xAI avaldas 1. juulil 2026 beetaversioonis Voice Agent Builderi, millega saab ettevõtte väitel seadistada Grok Voice’i põhjal kõneagendi ilma koodi kirjutamata. Tööriist on mõeldud eeskätt klienditoe, müügi, broneerimise ja muude telefonipõhiste töövoogude jaoks, kus kõneagent peab lisaks rääkimisele kasutama ettevõtte dokumente, kutsuma välja tööriistu, tegema päringuid ja vajadusel suunama kõne inimesele.

xAI sõnul saab kasutaja alustada lihtsast tööjuhisest: kirjeldada loomulikus keeles, kuidas kõne peaks kulgema, lisada teadmistebaasi dokumendid, ühendada tööriistad ning määrata piirangureeglid. Ametlikus teates nimetab ettevõte võimalust tuua kaasa olemasolev telefoninumber SIP-ühenduse kaudu, ühendada ettevõtte API-sid ja MCP-servereid ning kasutada WebSocketi kaudu oma klientrakendust.

See ei ole lihtsalt järjekordne juturoboti liides. xAI positsioneerib toodet kui täisväärtuslikku kõneagentide taristut, kus ühes kohas on telefoniliiklus, dokumendipõhine otsing, tööriistade kasutamine, piirangureeglid ja kõnede jälgitavus. Turu mõttes astub xAI sellega samasse võistlusse OpenAI Realtime’i, Google Gemini Live API ja mitme eraldi kõneagentide platvormiga. Google kirjeldab Gemini Live API-t kui madala viitega liidest, mis töötleb pidevat heli-, pildi- ja tekstivoogu reaalajas kõnepõhiste kogemuste loomiseks, ning OpenAI tõi 2026. aasta mais välja GPT-Realtime-2, GPT-Realtime-Translate’i ja GPT-Realtime-Whisperi.

Artikli faktipõhi tugineb xAI ametlikule 1. juuli 2026 teatele, xAI arendajadokumentatsioonile, Google’i ja OpenAI ametlikele API-lehtedele, Reutersi OpenAI helimudelite kajastusele, τ-voice’i ja EVA-Benchi teaduslikele võrdlusmaterjalidele ning Euroopa Komisjoni AI Acti läbipaistvuskohustuste materjalidele.

Mis täpselt muutus?

Voice Agent Builder annab xAI kasutajatele graafilise tööriista, millega saab seadistada kõneagendi ilma tavapärase kõnetehnoloogia virna ise kokku panemata. Tavapärane lahendus koosneb sageli kolmest eraldi osast: kõnetuvastus, keelemudel ja kõnesüntees. Iga lisakiht tähendab viidet, eraldi arveldust, tõrkekohti ja hooldusvajadust. xAI väidab, et Grok Voice kasutab otsesemat kõnest kõneks teekonda, mis on mudeliga tihedamalt seotud kui käsitsi ühendatud teenuste ahel.

Praktiliselt tähendab see, et kasutaja ei pea alustama nullist telefonitaristu, transkriptsiooni, kõnesünteesi, vestlusloogika ja tööriistade orkestreerimise kokkupanekut. xAI pakub valmis ehitusplokke: teadmistebaas, tööriistad, ühendused, kõnede salvestused, transkriptsioonid, tööriistakasutuse logid ja inimtöötajale suunamine.

Tööriistade osa on toote keskne lubadus. xAI kirjeldab, et kõneagent võib näiteks broneerida aja Google Calendaris või Outlook Calendaris, saata kinnituse e-posti kaudu, vaadata tellimuse seisu ettevõtte API-st, teha tagasimakse, otsida avalikku infot veebist või X-ist ning hallata pileteid Linearist või Notionist. Need näited näitavad, et toode ei ole mõeldud üksnes küsimustele vastamiseks, vaid telefonikõne käigus tegevuste lõpuleviimiseks.

Hinna pool: lihtne baashind, aga tööriistad tuleb eraldi üle vaadata

xAI ametliku teate järgi maksab kõneagendi heli praegu 0,05 dollarit minuti kohta. xAI pakutud tasuta telefoninumbril tehtav telefoniliiklus lisab 0,01 dollarit minuti kohta. Ettevõte väidab, et eraldi platvormitasu ei lisandu ning hääled sisalduvad hinnas.

Arendajadokumentatsioon täpsustab siiski, et Voice API arveldus ei piirdu alati üksnes heliminutitega. Voice Agent API puhul on heli hind 0,05 dollarit minuti kohta, tekstsisendi sündmus maksab 0,004 dollarit ning sessioonide ülempiir on dokumentatsiooni järgi 100 samaaegset sessiooni tiimi kohta ja maksimaalne sessiooni kestus 120 minutit. Sama leht märgib regiooniks us-east-1.

Oluline nüanss on tööriistade hind. xAI hinnaleht ütleb, et serveripoolsete tööriistade kasutamisel lisanduvad tokenikasutus ja tööriistakutsed. Näiteks veebiotsing ja X-i otsing on hinnastatud eraldi, kogude ehk dokumendiotsingu kasutus samuti. See tähendab, et lihtsa kõneagendi minutihind võib olla prognoositav, kuid palju tööriistu kasutava agendi tegelik kulu sõltub sellest, kui sageli agent otsib, pärib, kontrollib ja kutsub välja väliseid tööriistu.

OpenAI Realtime’i hind on teistsuguse loogikaga: ametlik hinnaleht näitab GPT-Realtime-2 puhul eraldi audio sisendi ja väljundi tokenihindu, mitte üht lihtsat minutihinda. Google’i Gemini API hinnaleht näitab samuti mudeli- ja modaalsuspõhist hinnastust, kus heliarvestus võib sõltuda sisendist, väljundist ja kasutatavast mudelist. Seetõttu ei saa xAI 0,05 dollarit minutis otse võrrelda iga konkurendi iga paketiga; tootmiskulu sõltub kõne pikkusest, rääkimise osakaalust, tööriistadest, telefonitaristust, logimisest, andmeresidentsusest ja kvaliteedinõuetest.

Mida näitab τ-voice Bench ja mida see ei tõesta?

xAI esitleb Voice Agent Builderit koos Grok Voice Think Fast 1.0 tulemustega τ-voice Benchis. Ametlikul xAI lehel on Grok Voice Think Fast 1.0 üldskoor 67,3%, Gemini 3.1 Flash Live’i tulemus 43,8% ja GPT Realtime 1.5 tulemus 35,3%. Lähtetekstis toodud 73,7% ei ole xAI ametliku teate järgi üldskoor; ametlikus vaates on üldskoor 67,3%.

τ-voice’i teaduslik kirjeldus on toote hindamisel oluline, sest see ei mõõda ainult ilusat kõnesünteesi. Benchmark käsitleb täisdupleksseid kõneagente ehk süsteeme, mis kuulavad ja räägivad samaaegselt ning peavad keerulises kõnes järgima domeenipoliitikat, kasutama tööriistu ja jõudma kontrollitava tulemuseni. Autorite arXivi kokkuvõtte järgi hõlmab hindamine 278 ülesannet ning realistlikud tingimused sisaldavad müra, eri aktsente ja loomulikku kõnevoorude vaheldumist.

Sama uurimistöö hoiatab samas, et kõneagentide võimekus jääb veel tekstipõhistest agentidest maha. Autorite järgi jõudsid kõneagendid puhtamates tingimustes 31–51% ja realistliku müra ning aktsentidega 26–38% tasemele, säilitades vaid 30–45% tekstipõhise lahenduse võimekusest. See on oluline vastukaal tootjate edetabelitele: isegi kui üks mudel on teistest parem, ei tähenda see, et kõneagent sobib järelevalveta igasse klienditeeninduse, tervishoiu, finantsi või avaliku sektori töövoogu.

Ka EVA-Bench, teine 2026. aastal avaldatud kõneagentide hindamisraamistik, osutab sarnasele probleemile. Selle autorid hindasid 12 süsteemi 213 stsenaariumis ning leidsid, et ükski süsteem ei ületanud korraga 0,5 taset nii täpsuse kui kasutuskogemuse põhimõõdikus. Samuti tõid nad esile, et aktsent ja müra paljastavad jätkuvalt suuri töökindluse erinevusi.

Ekspertide vaade: avalikke kommentaare napib, kuid uurimissuunad on ühesed

Konkreetse Voice Agent Builderi beetateate kohta ei ole seni laialt kättesaadavaid sõltumatuid ekspertkommentaare, mida saaks täpselt omistada. Seetõttu on mõistlik vaadata laiemat teaduskirjandust ja tehniliste benchmarkide järeldusi.

τ-voice’i autorid sõnastavad põhiprobleemi selgelt: kõneagent ei pea üksnes heli mõistma, vaid peab mitmevoorulises vestluses täitma kontrollitava ülesande, järgima poliitikat ja kasutama tööriistu. See eristab tootmiskeskkonna kõneagenti tavalisest kõnetuvastuse või kõnesünteesi demost.

2026. aasta juunis avaldatud uuring „Real-Time Voice AI Hears but Does Not Listen” lisab veel ühe piirangu. Autorid hindasid OpenAI, Google’i ja Alibaba reaalaja kõnesüsteeme olukordades, kus oluline info ei peitu ainult sõnades, vaid hääletoonis. Uuringu järgi kaldusid süsteemid otsustama sõnade, mitte emotsionaalse või akustilise märguande järgi: näiteks hirmunud häälega antud finantskinnitus võis süsteemi jaoks jääda lihtsalt sõnalise nõusolekuna käsitletuks. See töö ei hinnanud xAI uut Voice Agent Builderit, kuid selle järeldus on üldine: kõneagente ei tohiks kriitilistes olukordades hinnata ainult selle järgi, kas nad kuulevad sõnu.

MCP ehk Model Context Protocol on selles pildis oluline, sest xAI lubab ühendada agente MCP-serveritega. Anthropic tutvustas MCP-d 2024. aastal avatud standardina, millega tehisaru rakendused saavad ühenduda väliste andmeallikate ja tööriistadega. Ametlik MCP dokumentatsioon kirjeldab seda kui avatud standardit tehisaru rakenduste ühendamiseks failide, andmebaaside, tööriistade ja töövoogudega.

See teeb kõneagendi kasulikumaks, kuid suurendab ka vastutust. Kui agent saab kalendrit muuta, tellimust muuta, tagasimakset algatada või pileti sulgeda, tuleb ehitada õiguste, logimise, kinnituste ja tagasivõtmise loogika. Telefonikõnes tehtud viga võib olla äriliselt kallim kui vestlusaknas antud ebatäpne vastus.

Eesti kasutaja vaade: huvitav klienditoele, kuid andmekaitse ja keel on praktiline proovikivi

Eesti ettevõttele võib selline tööriist olla kasulik kolmes kohas: kõnekeskuse lihtsamad korduvad päringud, broneerimisliinid ja sisemised teenindusnumbrid. Näiteks võib agent vastata tarneaja, teenusepaketi, kohtumise või piletistaatuse küsimustele, kui tal on ligipääs õigetele dokumentidele ja süsteemidele. Väikeettevõtte jaoks on oluline, et lahendus ei nõua kohe eraldi kõnetuvastuse, kõnesünteesi, telefonisüsteemi ja agentloogika arendust.

Eesti kasutuse esimene küsimus on keel. xAI tooteleht ja Voice API leht räägivad 25+ keelest ning 80+ häälest, kuid arendajadokumentatsiooni ühes osas on samal ajal kirjas viis nimetatud häält. See ei tähenda tingimata vastuolu kogu platvormi sees, kuid näitab, et tegelik saadavus tuleb kontrollida xAI konsoolis ja kasutuslepingutes, mitte ainult turunduslehel.

Teine küsimus on andmete asukoht ja säilitamine. xAI Voice Agent API dokumentatsioon näitab regioonina us-east-1, samas kui Voice API ülevaade lubab ettevõtte tasemel piirkondlikku töötlemist ja EL-i andmeresidentsuse võimalusi. Eesti või EL-i kliendiandmetega kasutamisel tuleb seetõttu enne tootmiskasutust täpsustada, kus heli, transkriptsioonid, logid ja tööriistavastused töödeldakse ning millised lepingud kehtivad.

xAI turva- ja privaatsus-FAQ järgi ei kasuta ettevõte API sisendeid ega väljundeid treenimiseks ilma selgesõnalise loata, kuid API päringuid ja vastuseid säilitatakse vaikimisi 30 päeva kuritarvituse auditeerimiseks. Ettevõtte Zero Data Retention on eraldi ettevõttekonto funktsioon, mille puhul päringuid ja vastuseid ei salvestata.

Kolmas küsimus on läbipaistvus. Euroopa Komisjoni 2026. aasta juuni materjalide järgi hakkavad AI Acti artikli 50 läbipaistvuskohustused kehtima 2. augustist 2026 ning need puudutavad muu hulgas olukordi, kus inimene suhtleb tehisaru süsteemiga või kus luuakse tehislikku heli, pilti, videot või teksti. Euroopa Komisjoni sõnul on tehisliku sisu märgistamise ja läbipaistvuse nõuded õiguslikud kohustused, kuigi vastav praktiline koodeks on vabatahtlik.

Eesti ettevõtte jaoks tähendab see, et kliendile tuleb selgelt öelda, kui ta räägib automaatse kõneagendiga. Kui kasutatakse brändi hääle klooni, muutub läbipaistvus veel olulisemaks. Samuti tuleb hinnata, kas kõne salvestamiseks ja transkribeerimiseks on olemas õiguslik alus, kuidas klienti teavitatakse ning kui kaua kõnematerjali hoitakse.

Riskid ja piirangud

Esimene piirang on beetastaatus. Voice Agent Builder on xAI enda sõnul beetaversioonis. Beeta tähendab, et tootmiskasutusse viimine peaks algama piiratud töövoost, mitte kogu klienditeeninduse üleandmisest. Kõneagent sobib paremini korduvate, selgelt piiritletud ülesannete jaoks kui vaidluste, tundlike isikuandmete, terviseküsimuste või rahaliste otsuste iseseisvaks lahendamiseks.

Teine piirang on benchmarkide tõlgendamine. 67,3% τ-voice Benchis võib olla konkurentidega võrreldes tugev tulemus, kuid see ei ole sama mis ettevõtte enda kõnede lahendamise määr. Päriskeskkonnas mõjutavad tulemust andmeallikate kvaliteet, süsteemide töökindlus, telefonikõne heli, kliendi murre, katkestused, õiguste seadistus ja see, kas agent oskab õigel hetkel inimesele üle anda.

Kolmas piirang on kuluarvestus. Minutihind on arusaadav, kuid tööriistade, otsingu, telefoniliikluse, failikogude, salvestuse ja võimaliku ettevõttekonto lisatingimused võivad muuta lõppkulu. Enne laiemat kasutust tuleks võtta tüüpiline kuumaht, keskmine kõne pikkus, tööriistakutsete arv ja inimoperaatorile suunamise määr ning arvutada tegelik ühikukulu.

Neljas risk on õiguste haldus. Kõneagent, mis saab teha päringuid ja muudatusi ettevõtte süsteemides, vajab rangelt piiratud õigusi. Hea praktika on anda agendile alguses ainult lugemisõigus või lubada muudatused teha kinnitusega. Tagasimakse, lepingu muutmine, tellimuse tühistamine või isikuandmete avaldamine ei tohiks olla vaikimisi lubatud.

Viies risk puudutab hääle kloonimist. xAI ütleb, et kohandatud häält saab luua umbes kahe minuti pikkuse helinäidise põhjal ning dokumentatsioonis on näha ka eraldi kohandatud hääle loomise API näited. Sellise funktsiooni kasutamisel peab ettevõte suutma tõendada, et tal on hääle kasutamiseks vajalik nõusolek ja õiguslik alus.

Mida edasi jälgida?

Järgmine oluline küsimus on, kuidas Voice Agent Builder töötab väljaspool demokõnesid: eesti keeles, kehva telefonikvaliteediga, taustamüras, katkestustega ja ettevõtte tegelike andmeallikatega. Teine küsimus on xAI Euroopa kättesaadavus ja andmeresidentsus. Kolmas on see, kas xAI suudab dokumentatsioonis, hinnastuses ja tootelehel olevad lubadused ühtseks tootmiskogemuseks siduda.

Kui xAI suudab hoida viite madalana, hinnastuse arusaadavana ja tööriistade kasutuse kontrollitavana, võib Voice Agent Builder vähendada barjääri kõneagentide kasutuselevõtuks. Kuid praegu on mõistlik käsitleda seda kui uut beetatoodet, mitte valmis asendust inimese juhitud klienditeenindusele.

Kokkuvõte

xAI Voice Agent Builder on oluline samm, sest see pakib kõneagendi loomiseks vajalikud osad ühte kasutajaliidesesse: hääl, telefoninumber, teadmistebaas, tööriistad, piirangureeglid ja kõnede ülevaatus. See võib muuta kõneagentide katsetamise odavamaks ja kiiremaks kui eraldi API-de kokkuliitmine.

Samas ei kao põhiprobleemid: kõneagent peab toime tulema müra, aktsentide, katkestuste, ebaselgete soovide, andmekaitse ja ekslike tööriistakutsetega. Eesti ettevõttele on parim lähenemine alustada väikese, mõõdetava töövooga: üks telefoninumber, üks kasutusjuht, piiratud õigused, selge klienditeavitus, kõnede ülevaatus ja inimoperaatorile kiire üleandmine.

Korduma kippuvad küsimused

Mis on xAI Voice Agent Builder?

See on xAI beetaversioonis tööriist, millega saab seadistada Grok Voice’i põhjal kõneagendi ilma koodi kirjutamata. Agent saab kasutada dokumente, tööriistu, ühendusi, telefoninumbrit ja piirangureegleid.

Millal xAI Voice Agent Builder avaldati?

xAI avaldas Voice Agent Builderi beetaversiooni 1. juulil 2026.

Kui palju Grok Voice’i kõneagent maksab?

xAI teate järgi on baashind 0,05 dollarit heliminuti kohta. xAI pakutud tasuta telefoninumbril tehtav telefoniliiklus lisab 0,01 dollarit minuti kohta. Arendajadokumentatsioonis on lisaks kirjas tekstsisendi sündmuste hind ja eraldi tööriistakasutuse hinnastuse põhimõtted.

Kas see asendab klienditeenindaja?

Mitte täielikult. See võib sobida korduvate ja selgelt piiritletud kõnede esmaseks käsitlemiseks, kuid keerulisemad vaidlused, tundlikud isikuandmed, rahalised otsused ja erandid vajavad endiselt inimese järelevalvet.

Kas Voice Agent Builder toetab eesti keelt?

xAI räägib 25+ keelest, kuid ei ole avalikus teates eraldi kinnitanud eesti keele kvaliteeti. Eesti kasutuses tuleks teha eraldi proovikõned eesti keele, murdelise kõne, nimede, aadresside ja kehva telefonikvaliteediga.

Mida tähendab MCP kõneagendi puhul?

MCP ehk Model Context Protocol on avatud standard, millega tehisaru rakendused saavad ühenduda väliste tööriistade, andmeallikate ja töövoogudega. Kõneagendi puhul tähendab see, et agent saab vajadusel kasutada ettevõtte sisemisi süsteeme või eraldi MCP-servereid.

Miks on τ-voice Bench oluline?

τ-voice Bench mõõdab kõneagente realistlikumates tingimustes kui lihtne kõnetuvastuse test: müra, aktsendid, katkestused, tööriistade kasutus ja mitmevoorulised klienditeeninduse ülesanded. See aitab hinnata, kas agent suudab päriselt ülesande lõpetada, mitte ainult ilusasti rääkida.

Milline on peamine risk Eesti ettevõttele?

Peamised riskid on andmekaitse, kliendi teavitamine, kõnede salvestamine, tööriistade õigused ja eesti keele tegelik kvaliteet. Enne tootmiskasutust tuleks kontrollida, kus andmeid töödeldakse, kui kaua neid hoitakse ja millised õigused agendil ettevõtte süsteemides on.

Jaga artiklit

Saada see lugu kolleegile või salvesta hilisemaks.

Saa järgmine AI-RADAR postkasti

Kui järgmine praktiline AI-signaal või tööriistamuutus avaldatakse, saad selle otse e-postile.

Arutelu

0 kommentaari

0/1500

Laen kommentaare...
Loe edasi

Seotud teemad AI-RADARis