uredi› krajšaj› T:147 M:390 Z: [×]
Alexa, razumi me
Umetno inteligentne naprave, ki delujejo na glasovne ukaze, niso zgolj odrezavi glasbeni avtomati, temveč bi lahko postale najpogostejši način sodelovanja z našimi stroji.

George Anders, MIT Technology Review
Štirje Amazonovi inženirji so 31. avgusta 2012 vložili osnovni patent za tisto, kar je pozneje postalo Alexa, sistem umetne inteligence, zasnovan za delo z eno največjih in najbolj zapletenih zbirk podatkov: človeškim govorom. Inženirji so potrebovali le enajst besed in preprosto skico, da so opisali njegovo delovanje. Uporabnik v tihem prostoru reče: »Prosim, predvajaj Let It Be skupine The Beatles.« Majhna namizna naprava odgovori: »Nič lažjega, John,« in začne predvajati želeno melodijo.
Od tega skromnega začetka so inteligentne naprave za dom, ki delujejo na glasovne ukaze, postale pomemben Amazonov posel, obenem pa so tudi strateško vedno pomembnejše v boju s tehnološkimi tekmeci. Google, Apple, Samsung in Microsoft so zaposlili na tisoče raziskovalcev in specialistov, ki si prizadevajo ustvariti neustavljivo privlačno različico preproste naprave, s katero se ljudje lahko pogovarjajo. »Doslej smo vse sile vlagali v tehnologijo, kar se tiče tipkanja, pritiskanja oziroma drsanja. Zdaj pa se novi uporabniški vmesniki prilagajajo ljudem,« je opozoril Ahmed Bouzid, direktor Witlinga, ki razvija glasovne aplikacije za različne banke, univerze, odvetniške pisarne in druge.
Naprave Echo bodo pametne telefone dohitele le, če bodo znale še veliko več kot danes.
V Amazonu je to, kar se je začelo kot platforma za naprednejši glasbeni avtomat, postalo nekaj večjega: sistem umetne inteligence, ki izvira in se nenehno uči iz človeških podatkov. Njihova Echo in manjši Dot, ki ju poganja Alexa, sta vsenavzoča gospodinjska pomočnika, ki lahko ugašata luči, pripovedujeta šale in uporabniku omogočata, da prebira novice brez uporabe rok. Hkrati zbirata kupe podatkov o uporabnikih in z njimi izboljšujeta Alexo in njeno uporabnost.
Od premiere na trgu leta 2014 so prodali nekaj deset milijonov naprav, ki delujejo s pomočjo Alexe. Na ameriškem trgu z glasovnimi napravami z umetno inteligenco naj bi Amazon prodal približno 70 odstotkov vseh enot, a se konkurenca zaostruje. Google Home je prav tako prodal na milijone svojih enot, Apple in Microsoft pa kmalu nameravata predstaviti svoje različice.

Največja nagrada je priložnost za nadzor – ali vsaj vpliv – na treh pomembnih trgih: domača avtomatika, domača zabava in nakupovanje. Težko je reči, koliko ljudi bi se rado pogovarjalo s svojim hladilnikom, a vzorci vsakdanjega življenja se hitro spreminjajo. Podobno, kot so pametni telefoni spremenili vse, od dogovarjanja za zmenek do hitrosti pešcev, tudi umetna inteligenca na glasovno upravljanje postavlja na glavo številne vidike življenja za domačimi zidovi. Zakaj bi morali vstati, da bi zaklenili vhodna vrata ali na mrzlo zimsko jutro vklopili ogrevanje v avtomobilu, če pa lahko Alexa ali njena sorodnica zadeve takoj uredita namesto nas?
Za zdaj Amazon ne skuša pobirati zaslužka od družb, ki izdelujejo pametne termostate, žarnice in druge naprave, ki so povezane z Alexo. A v prihodnosti si je zlahka mogoče predstavljati, kako bi si delili zaslužke oziroma druge prihodke. Na najmanjšem segmentu tega trga, to je avtomatizacija doma, se danes obrne že več kot pet milijard dolarjev na leto, prodaja na drobno v Združenih državah Amerike pa je lani pomenila 4,9 bilijona dolarjev. Danes Amazon služi s samimi napravami, katerih cene se gibljejo od 50 dolarjev za Dota do 230 dolarjev za najnaprednejši Echo z video zaslonom, žanje pa tudi dodatni zaslužek, če uporabniki začnejo več nakupovati v Amazonovi velikanski spletni trgovini. (Amazon ne želi izdati podatkov o tem.)
Z malo poigravanja Alexina programska oprema lahko pomaga celo tistim s hudimi govornimi omejitvami.
Naprave Echo bodo pametne telefone dohitele le, če bodo znale še veliko več kot danes. Amazon v ta namen spodbuja neodvisne razvijalce, naj na platformo vgrajujejo nove storitve, podobno kot Apple že nekaj časa sodelujejo z razvijalci aplikacij. Doslej so razvili več kot 15.000 takih »veščin« oziroma aplikacij in orodja za sestavljanje aplikacij se danes spoji tako hitro, da je preprosto funkcijo mogoče sprogramirati v približno eni uri tudi brez posebnega znanja programiranja. Med najbolj priljubljenimi aplikacijami so možnosti za naročilo prevoza pri Uberju in Lyftu. Med manj uporabnimi pripomočki pa so aplikacije, ki poslušalca bombardirajo z žaljivkami.
Najbolj ambiciozne so družbe, ki izdelujejo strojno opremo in prodajajo storitve, ki delujejo s pomočjo Alexe. Capital One svojim strankam na primer ponuja možnost plačevanja računov z Alexo, Ecobee s sedežem v Torontu pa je eden od številnih izdelovalcev pametnih termostatov, ki nadgrajujejo različice na podlagi Alexe, s katerimi ljudje temperaturo v prostoru spreminjajo zgolj z nekaj besedami. »Naši kupci so zelo zaposleni,« je pojasnil Stuart Lombard, direktor Ecobeeja, ki zdaj z napravami na podlagi Alexe ustvari 40 odstotkov celotne prodaje, in to je tudi najhitreje rastoča linija izdelkov tega desetletje starega podjetja. »Najprej se morajo prebiti skozi gost promet, da pridejo domov, nahraniti otroke, previti dojenčka in bogve kaj še vse. Mi jim omogočimo, da nekaj opravijo, tudi ko imajo zasedeni obe roki.«
Povezava govora in umetne inteligence
Umetno inteligentne naprave na glasovno upravljanje so za kupce tako zanimive zaradi možnosti, da se nam prilagodijo, se odzivajo na način našega govora – in razmišljanja – ne da bi nam bilo treba pritiskati na tipkovnico ali zaslon. Hkrati so zato tehnično tako zahtevne. Ko govorimo, nikakor nismo dosledni, temveč prekinjamo sami sebe, misli se nam zapletajo, naključno uporabljamo besede, kretnje in medklice, in predvidevamo, da so naši stavki vedno smiselni.
S tem izzivom se ukvarja nekaj tisoč Amazonovih uslužbencev, tudi tisti v raziskovalnih enotah v Seattlu, Sunnyvalu, Kaliforniji in Cambridgeu v Massachusettsu. A še kljub temu je bilo na Amazonovih straneh z oglasi za zaposlitev nedavno objavljenih dodatnih 1100 delovnih mest, povezanih z Alexo, in to v več kot desetih oddelkih, z 215 mesti za specialiste za strojno učenje vred. Na sestanku v prostorih družbe v Cambridgu sem Rohita Prasada, vodja znanstvenikov, ki razvijajo Alexo, vprašal, zakaj potrebuje toliko ljudi in kdaj bo njegova raziskovalna ekipa dovolj velika.
»Samo smejim se lahko vašim vprašanjem,« je odgovoril.
Čez nekaj sekund, ko se je spet zbral, mi je pojasnil, da se z govorno tehnologijo ukvarja 20 let in da je v tem času večinoma dosegal borne rezultate. Šele v zadnjih petih letih so se odprle velikanske možnosti. Razvoj dejansko učinkovite umetne inteligence na glasovno upravljanje je zapletena in še vedno nedokončana naloga. A medtem ko so si v preteklosti strokovnjaki za jezik razbijali glavo s tem, da bi natančen pomen včasih nerazumljivih izjav uganili že v prvem poskusu, so z novimi pristopi do strojnega učenja dosegli napredek z drugačno taktiko: nepopolnim ustreznicam sledi hitro dopolnjevanje domnev in ugibanj. Jedro dela predstavljata obdelovanje velikanskih količin podatkov o uporabnikih in učenje iz prejšnjih napak. Čim več časa Alexa prebije z uporabnikom, tem več podatkov zbere, iz katerih se lahko uči, in tem pametnejša postaja. Z napredovanjem se odpirajo nove možnosti in pojavi se potreba po še večji moči.

»Naj vam opišem primer,« je nadaljeval Prasad. »Če Alexo vprašate, kateri je Adelin prvi album, bi se moral odgovor glasiti 19. Če jo nato prosite, naj ga predvaja, bo vedela dovolj, da bo izpolnila ukaz.« Kaj pa, če se uporabnik med pogovarjanjem pošali? Kaj če Alexo najprej vpraša, katerega leta je izšel ta album in koliko kopij je bilo prodanih? Če bi tak pomenek končali z ukazom: »Predvajaj ga«, bi se starejše različice Alexe zmedle. Danes pa tehnologija zmore slediti takšnemu miselnemu toku, no, vsaj včasih, in prepozna, da zaimek pomeni album z naslovom 19.
Takšne izboljšave omogočajo tehnike za strojno učenje, s katerimi so raziskali na tisoče starih pomenkov, v katerih se je Alexa zmedla. Sistem se nauči, katero pesem bi uporabnik dejansko rad slišal in na katerem mestu pogovora je bila ta pesem omenjena. »Na začetku si je treba predstavljati, kako bodo ljudje prosili za nekaj,« je pojasnil James Glass, vodja skupine za sisteme govorjenega jezika na Massachusetskem tehnološkem institutu. »Nato je treba zbrati podatke in prilagoditi modele.«
Argumenti za tak pristop k strojnemu učenju so bolj ali manj sprejeti, je pojasnil Glass, a je za uspešnost treba imeti na voljo veliko več podatkov, kot jih zlahka zberejo univerzitetni raziskovalci. Ker uporaba Alexe narašča, ima Amazon zdaj dostop do razkošnega skladišča dvogovorov med ljudmi in računalniki – s tem ima pri izpopolnjevanju glasovne tehnologije podobno prednost, kot jo je Google užival pri besedilnem iskanju. V pomoč so tudi zunanji podatki: velikanska zbirka podatkov besedil pesmi, ki so jo na Alexo posneli leta 2016, na primer, je pomagala zagotoviti, da uporabniki, ki prosijo za pesem z besedami »drove my chevy to the levee«, kljub temu pridejo do American Pie Dona McLeana.
Googlov Assistant je najboljši pri obsežnih iskalnih ukazih, Applova Siri in Microsoftova Cortana pa imata druge talente.
Eden najnovejših projektov Prasadove skupine izpostavlja, kako prilagodljiv je ta pristop. Vključuje tudi pravilno razumevanje v trenutku, ko se uporabnik premisli in prekliče prvotno željo. To nakaže zelo različno. Nekateri ljudje rečejo: »Ne, ne«, drugi »Premislil sem si«, tretji pa se zapletejo s »Čakaj, pravzaprav bi raje tole.« Alexi ni treba razumeti vsake takšne izjave. Veliko število vzorcev in polnadzorovano strojno učenje ji omogočajo, da izloči skupino verjetnih označevalcev za zanikanje in nato po spremembi poteka razbere razumljivo novo prošnjo.
Poleg tega da je Alexa postala boljša poslušalka, si strokovnjaki Amazonovega oddelka za umetno inteligenco s sklopi podatkov pomagajo, da bi jo naučili tudi bolje govoriti, hkrati pa izboljšujejo intonacijo sintetiziranega ženskega glasu te naprave, da bi jo kupci stalno uporabljali. Običajni pristopi k sintetiziranju govora se opirajo na sklapljanje zlogov in odsekov posnetega človeškega govora. S to tehniko je sicer mogoče doseči razmeroma naraven zvok, a ni primerna za šepetanje, ironičnost in druge variacije v govoru uporabnika. Amazonovi algoritmi za strojno učenje pa zmorejo tudi drugačen pristop, s katerim se izboljšuje Alexino razumevanje od sočnega dialoga do umirjenega recitiranja, in sicer jo usposabljajo z angažiranimi, živahnimi, prestrašenimi ali vsevednimi glasovi poklicnih pripovedovalcev. V pomoč je tudi to, da ima Amazon v lasti izdajatelja slušnih knjig Audible.
Veliko tem za pogovor
Med najbolj vnetimi uporabniki umetne inteligence na glasovno upravljanje so ljudje, ki težko tipkajo na telefon in tablico. Gavin Kerr, direktor podjetja Inglis iz Philadelphie, ki ponuja bivališča in storitve za bolnike in invalide, je Amazonove naprave Echo in Dot vgradil v osem domov. Upa, da bodo z njima po koncu pilotnega testiranja postopoma opremili vseh nekaj več kot 300 domov. »To je neverjetna ugodnost za stanovalce,« je pojasnil. »Veliko samozavestnejši so, saj jim napravi omogočata samostojnost.«
Kerr dela s stotinami ljudmi, ki imajo multiplo sklerozo ali druge hude bolezni. Za tiste, ki so priklenjeni na posteljo ali uporabljajo invalidski voziček, so težko dostopni termostati na steni stalen vzrok za nejevoljo. »Njihovo telo težko uravnava telesno temperaturo, zato jim je pri istih stopinjah v prostoru lahko vroče, že naslednji hip pa jih zebe,« je razložil. Ker so njihove gibalne zmožnosti omejene, ni preprosto doseči, da jim je udobno, sploh če nimajo na voljo stalne, 24-urne pomoči.
Z malo poigravanja Alexina programska oprema lahko pomaga celo tistim s hudimi govornimi omejitvami. Kerr je povedal zgodbo o moškem, starem malo manj kot 40 let, ki je želel oditi iz doma za dolgotrajno oskrbo in se preseliti nazaj v običajno sosesko. »Rekel nam je, da ne bo nikoli zmogel ukazov za Alexo,« se je spominjal Kerr. »Vprašali smo ga, kaj lahko reče. In nato smo prilagodili programsko opremo, da je Alexa delovala po njegovi meri. Zdaj reče mama, ko hoče prižgati luči v kuhinji, in John, ko želi prižgati luči v kopalnici.«
Inglis novim uporabnikom Echa ponuja štiriurno usposabljanje, a se veliko pogosteje odločijo, da se bodo uporabe naučili sami. Ko Echo vzamete iz škatle in ovoja, so poudarjene najpogostejše funkcije, kot so predvajanje glasbe, nastavljanje alarma in osveževanje nakupovalnega lističa. Uporabniki Alexine ukazne menije lahko prikličejo tudi na svojih pametnih telefonih in prenosnih računalnikih, da prilagodijo nastavitve, poiščejo nove aplikacije ali zahtevajo navodila, s katerimi ukaznimi vrsticami neka aplikacija deluje najučinkoviteje.
Microsoftov produktni vodja Darren Austin je v svojem zelo odmevnem blogu junija letos napisal, da je za velik Alexin uspeh zaslužna njena zmožnost, da olajša pritiske preveč napornega vsakdana. »Samo izrečemo prošnjo in Alexa ublaži neugodne občutke negotovosti in strah pred pozabljanjem,« je napisal. Uporabnike pritegne, da Alexi lahko zaupajo najrazličnejše hipne dvome in želje, je zatrdil. To je spremljevalka, ki je vedno pripravljena sodelovati.
Vsak teden – včasih celo še pogosteje – generalni direktor Alexe Rob Pulciani pregleda zbrane podatke o najpogostejših izjavah uporabnikov Alexe in Dota. Navadno so na vrhu seznama prošnje za glasbo, novice, vremensko napoved, podatke o prometu in igre. Spomladi pa se je na seznamu hitro dvigovala novost, in sicer želja: »Alexa, pomagaj se mi sprostiti.«
Ko uporabnik izreče to prošnjo, ga Alexa popelje v izbor pomirjujočih zvokov. Ptice žvrgolijo, oddaljeni valovi pljuskajo ob obalo, tovorni vlak drvi skozi noč. Takšne ambientalne zvočne zanke se na željo uporabnika lahko predvajajo ure in ure. Pulciani je te aplikacije imel za male posebnosti, ko so se leta 2015 pojavile na Alexini platformi. A njihova uporaba se hitro povečuje. Odrasli pod stresom s pomočjo teh zvokov lažje zaspijo, starši jih vključijo kot nadomestke za uspavanke za sitne malčke. V tednih po svoji ugotovitvi je Pulciani s kolegi nastavil Alexin notranji ustroj, da bi novi kupci Echa lahko hitro prišli do pomirjujočih zvokov, če bi vprašali, katere nove funkcije naj preizkusijo.

Dolg pogovor
V raziskavah so se Googlove, Applove, Microsoftove in Amazonove platforme umetne inteligence izkazale z različnimi prednostmi. Googlov Assistant je najboljši pri obsežnih iskalnih ukazih, Applova Siri in Microsoftova Cortana pa imata druge talente. Alexa je zelo dobra pri ukazih za nakupovanje.
Prava zmaga za glasovno umetno inteligenco pa bo, če bo zmožna sodelovati v pristnem večminutnem pogovoru z uporabniki. Za tak podvig bodo nujni veliki skoki pri zmožnosti naprav, da razberejo namero govorca, četudi v besedah ni jasne prošnje. Če nekdo reče: »Že nekaj tednov nisem bil na fitnesu,« prijatelji vedo, da verjetno želi govoriti o stresu ali svoji samopodobi. Za programsko opremo pa je to velik preskok. Trd oreh so tudi nenadne spremembe teme ali nejasni namigi.
Prava zmaga za glasovno umetno inteligenco bo, če bo zmožna sodelovati v večminutnem pogovoru z uporabniki.
Amazon je lani v želji, da bi okrepil vez med naslednjo generacijo umetne inteligence in raziskavami govora, povabil študente strojništva z dvanajstih univerz po svetu, naj sestavijo glasovne robote, ki zmorejo 20-minutni pogovor. Univerza, ki bo do novembra dosegla največji napredek, bo dobila nagrado v višini pol milijona dolarjev. Neki konec tedna sem preizkusil šest teh robotov. Vedno sem s preprostih vprašanj prešel na zapletenejše odprte izjave, na katere so bili mogoči najrazličnejši odgovori.
Zdel se je spodbuden začetek, ko me je eden od robotov vprašal: »Si videl katerega od novejših filmov?« »Da,« sem odgovoril, »gledal sem Skrite faktorje.« Robot ni posnemal časopisnih kritik o tem zajedljivem filmu o Nasinih začetkih, temveč je ustrelil: »Mislim, da so ti skriti faktorji precej šibki, kar se tiče same matematike.« Sam sicer ne bi pomislil na kaj takega, a se mi je odgovor zdel očarljivo primeren za program umetne inteligence. Pogovor je kmalu zatem zastal, a nama je ostal vsaj ta čudoviti trenutek.
Žal se mu noben od drugih robotov ni niti približal. Najbolj zmeden med njimi je med drugim bleknil: »Ali imaš spletene mreže?«, jaz pa sem mislil, da se skušava pogovarjati o spletnih straneh. Izjavil sem nekaj morda ne ravno prijaznega o omejitvah robotov, pa me je vprašal: »Se znaš kolektivno pogajati?«
Nekaj dni pozneje, ko sem Prasada iz Amazona vprašal za njegovo mnenje o družabnih robotih, se ni kaj dosti razburjal zaradi začetnih neuspehov. »To je izjemno pomembno področje,« mi je razložil. »Tu bi Alexa lahko izpadla zelo pametna, a je to veliko težje kot igranje goja ali šaha. Pri teh igrah, čeprav je toliko možnosti za potezo, veš, kaj je končni cilj. V pogovoru pa ne veš niti tega, kaj bi rad izvedel sogovornik.« Ko bo Alexa to zmožna ugotoviti, se bova lahko resno pogovorila.
Copyright 2017 Technology Review, distribucija Tribune Content Agency
Zakup člankov
Za plačilo lahko uporabite plačilno kartico, PayPal, Apple Pay ali Google Pay:
Najprej se morate prijaviti.
V kolikor še nimate svoje prijave, se lahko registrirate.


