uredi› krajšaj› T:806 M:1071 Z: [×]
Metode učenja umetne inteligence so v temelju zgrešene
Ni skrivnost, da modeli strojnega učenja, naravnani na delovanje v laboratoriju in s skoraj popolnimi rezultati, v resničnem življenju pogosto pogorijo.
Will Heaven, MIT Technology Review

Vzroke za nezanesljivost se običajno išče v neujemanju med podatki, s katerimi so učili in preverjali umetno inteligenco, in tistimi, na katere naleti zunaj laboratorija, torej ob prestavljanju na druge podatke. Umetna inteligenca, ki so jo usposabljali, da bi odkrivala znake bolezni na visokokakovostnih medicinskih posnetkih, bo imela težave z neostrimi in obrezanimi posnetki, narejenimi s poceni opremo v zelo zasedeni bolnišnici.
V družbi Google je skupina štiridesetih raziskovalcev, razdeljenih v sedem skupin, odkrila še en pomemben vzrok za pogost neuspeh modelov strojnega učenja in ga poimenovala slaba specifikacija. Ta bi lahko predstavljala še hujšo težavo od prestavljanja na drugačne podatke. »Od modelov strojnega učenja pričakujemo več, kot smo sposobni zagotoviti s trenutnim pristopom,« je poudaril Alex D'Amour, vodja raziskave.
Premalo natančna specifikacija je v statistiki dobro znana težava. Ugotovljene posledice imajo lahko številne vzroke. D'Amour, ki se dobro spozna tudi na vzročno sklepanje, je hotel izvedeti, zakaj njegovi modeli strojnega učenja v praksi pogosto zatajijo. Zanimalo ga je, ali bi tudi za tem lahko tičala nenatančna specifikacija, a je kmalu ugotovil, da imajo enake težave s svojimi modeli tudi številni njegovi kolegi. »Pravzaprav gre za vsesplošen pojav,« je pojasnil.
D'Amourjevo prvotno preverjanje se je razraslo in nazadnje se je nekaj deset Googlovih raziskovalcev ukvarjalo z vrsto različnih uporab umetne inteligence, od prepoznave podob do obdelave naravnega jezika in napovedovanja bolezni. Ugotovili so, da je pomanjkljiva specifikacija kriva za slabo delovanje vseh aplikacij. Ključ se skriva v načinu, kako učimo in preverjamo modele strojnega učenja. Rešitev ni preprosta.
Raziskava je udarila kot krogla za rušenje, je potožil Brandon Rohrer, inženir strojnega učenja pri iRobotu, pred tem pa je delal za Facebook ter Microsoft in pri sami raziskavi ni sodeloval.
Enaki, vendar različni
Če hočemo pravilno razumeti, kaj se dogaja, je treba najprej pojasniti ozadje. Povedano preprosto, za nastanek modela strojnega učenja je nujno učenje z velikim številom primerov, nato pa je na vrsti preverjanje s kupom podobnih primerov, na katere model še ni naletel. Če preizkus uspešno opravi, je zrel za uporabo.
Googlovi raziskovalci pa zdaj poudarjajo, da so merila postavljena prenizko. Med učenjem lahko dobimo vrsto različnih modelov, ki so na preizkusu uspešni, a so med njimi – in to je ključno – majhne, nesistematske razlike, odvisne od dejavnikov, kot so naključne vrednosti, ki jih še pred začetkom učenja pripišejo vozliščem v nevronski mreži, način izbire in dovajanja podatkov za učenje, število krogov učenja in tako naprej. Te majhne in pogosto naključne razlike hitro spregledamo, če ne vplivajo na to, kako se model izkaže na preizkusu. A pokazalo se je, da lahko pripomorejo k velikim razlikam v delovanju v resničnem svetu.
Povedano drugače, postopek za razvoj večine modelov strojnega učenja ne more nakazati, kateri modeli bodo v resničnem svetu uspešni, kateri pa bodo pogoreli.
Ne gre za enako težavo kot pri prestavljanju podatkov, pri katerem z učenjem ne pridemo do dobrega modela, ker se podatki za učenje ne ujemajo s primeri iz resničnega sveta. Pomanjkljiva specifikacija pomeni nekaj drugega: čeprav z učenjem lahko izdelamo dober model, bi na koncu z njim utegnili dobiti slabega, saj postopek ne prepozna razlike. Tudi mi je ne bi.
Raziskovalci so vpliv slabe specifikacije preverili pri večjem številu aplikacij. Vedno so uporabili isti postopek učenja, s katerim so izdelali različne modele strojnega učenja, nato pa na teh modeli opravili stresne teste, izdelane z namenom, da bi osvetlili posebne razlike pri učinkovitosti.
Tako so učili petdeset različic modela za prepoznavo podob na ImageNetu, podatkovni zbirki podob vsakdanjih predmetov. Seanse učenja so se razlikovale le po naključni vrednosti, pripisani nevronski mreži na začetku. A čeprav je vseh petdeset modelov na testiranju dobilo skoraj enako oceno – kar kaže, da so bili enako natančni –, je njihova učinkovitost v resničnem svetu močno nihala.
Pri stresnem testu so uporabili podatkovno zbirko ImageNet-C, v kateri so podobe z ImageNeta, ki so jih »pikselirali« ali jim spremenili svetlost in kontrast, in ObjectNeta, zbirke podob vsakdanjih predmetov v neobičajnih položajih, na primer prevrnjeni stoli, narobe obrnjeni čajniki in majice, obešene na kavljih. Nekaj od teh petdesetih modelov se je dobro znašlo s pikseliranimi fotografijami, drugi so se odrezali pri neobičajnih položajih, nekateri so na splošno močno izstopali od drugih. A kar se tiče standardnega postopka učenja, med njimi ni bilo razlik.
Raziskovalci so podoben poskus naredili tudi z različnima sistemoma za obdelavo naravnega jezika in s tremi medicinskimi umetnimi inteligencami za napovedovanje očesnih bolezni s posnetkov mrežnice, raka iz kožnih lezij in odpovedi ledvic na podlagi pacientove kartoteke. Čisto vsi sistemi so imeli enako težavo: modeli, ki naj bi bili enako natančni, so različno uspešno opravili preizkus s podatki iz resničnega sveta, na primer z različnimi posnetki mrežnice in tipi kože.
Rohrer predlaga, da bi morda morali spremeniti ocenjevanje nevronskih mrež. »V osnovnih predpostavkah, ki smo jih postavili, so nastale velike luknje.«
D'Amour se strinja. »Največji in najbolj neposredni nauk vsega tega je, da potrebujemo veliko več preizkusov,« je povedal. Vendar to ne bo preprosto. Stresne teste so prilagodili posebej za vsako nalogo, pri čemer so uporabili podatke iz resničnega sveta ali podatke, ki ga posnemajo. Ti pa niso vedno na voljo.
Rezultati stresnih testov se včasih tudi niso ujemali: modeli, ki so se izkazali pri prepoznavi pikseliranih podob, so pogosto zatajili pri prepoznavanju visokokontrastnih slik, na primer. Poleg tega včasih ni mogoče enega modela tako izpopolniti, da bi prestal vse stresne teste.
Več možnosti
Ena od možnosti je, da bi dodali stopnjo tako pri učenju kot preizkušanju, na kateri bi takoj izdelali več modelov namesto le enega. Te konkurenčne modele bi lahko nato vnovič preizkusili s posebnimi nalogami iz resničnega sveta in nato izbrali najboljšega za vsako opravilo posebej.
S tem bi bilo veliko dela, a družbi, kot je Google, ki razvija in uporablja velike modele, bi se to izplačalo, ocenjuje Yannic Kilcher, raziskovalec strojnega učenja na državni tehniški visoki šoli ETH v Zürichu. Google je lahko ponudil petdeset različic modela za obdelavo naravnega jezika in razvijalci aplikacij so lahko izbrali tisto, ki je bila zanje najboljša, je razložil.
D'Amour in njegovi kolegi še nimajo rešitve, vendar raziskujejo možnosti za izboljšanje učnega postopka. »Naučiti se moramo natančno opredeliti svoje zahteve za naše modele,« je pojasnil, »kajti na koncu se pogosto zgodi, da se teh zahtev zavemo šele, ko je model v resničnem svetu že pogorel.«
Primerna rešitev bo ključna, saj brez nje umetna inteligenca zunaj laboratorija ne bo imela takšnega pomena, kot jo ima v njem. Ko se umetna inteligenca v resničnih okoliščinah izkaže slabo, se v ljudeh porodi odpor do nje, je dodala soavtorica Katherine Heller, ki se pri Googlu ukvarja z umetno inteligenco v zdravstvu. »Izgubili smo precejšnje zaupanje v najpomembnejše aplikacije in radi bi ga vnovič pridobili.«
Copyright Technology Review, distribucija Tribune Content Agency
Zakup člankov
Za plačilo lahko uporabite plačilno kartico, PayPal, Apple Pay ali Google Pay:
Najprej se morate prijaviti.
V kolikor še nimate svoje prijave, se lahko registrirate.



