uredi› krajšaj› T:616 M:671 Z:10 [×]
Kako ne primerjati
Vedno ko predstavijo nov model umetne inteligence (UI), njegovo kakovost primerjajo z vrsto referenčnih meril. Sistem GPT-4o podjetja OpenAI, na primer, so na trg poslali maja z ugotovitvijo, da je na vrsti preizkusov prekašal vse najnovejše izdelke tekmecev.
Scott J Mulligan, MIT Technology Review
A ta merila so neprimerno izbrana in zastavljena, preizkuse je težavno ponoviti in meritve so pogosto naključne, je pokazala najnovejša raziskava. Vse to je pomembno, saj dosežek modela UI glede na referenčna merila določa, katera stopnja nadzora in kateri predpisi bodo veljali zanj.

»Vlada nekakšen divji zahod, saj nimamo dobrih standardov za ocenjevanje,« je pojasnila Anka Reuel, avtorica omenjene raziskave, ki zaključuje doktorski študij iz računalništva na univerzi Stanford in sodeluje v tamkajšnjem središču za varnost UI.
Referenčno merjenje pomeni, da UI opravi preizkus, ki je lahko v obliki izbirnih vprašanj, kot je najbolj priljubljeno obsežno večopravilno jezikovno razumevanje, znano pod angleško kratico MMLU (Massive multitask language understanding), ali pa oceno zmožnosti UI, da opravi neko nalogo, oziroma oceno kakovosti njenih besedilnih odgovorov na vnaprej določena vprašanja.
Vlada nekakšen divji zahod, saj nimamo dobrih standardov za ocenjevanje.
Podjetja, ki razvijajo sisteme UI, referenčno merjenje pogosto navajajo kot dokaz uspešnosti novega modela. »Razvijalci jih običajno optimizirajo za ta merila,« je povedala Anna Ivanova, predavateljica psihologije na inštitutu za tehnologijo v Georgii in vodja tamkajšnjega laboratorija za jezik, inteligentnost in razmišljanje.
Referenčna merila so že vključena v nekatere državne načrte za ureditev področja UI. Zakon EU o umetni inteligenci, ki bo začel veljati avgusta prihodnje leto, ta merila navaja kot orodje za presojo, ali model predstavlja sistematično tveganje – v tem primeru ga bodo strožje presojali in bodo zanj veljala drugačna pravila.
Trenutno merila za presojo varnosti velikih jezikovnih modelov nemara niso dovolj dobra. »Lahko vzbudijo lažen občutek varnosti, če niso dobro zasnovana, zlasti če gre za bolj tvegano uporabo. Tako se model na prvi pogled zdi varen, pa v resnici ni,« je izpostavila Anka Reuel.
Zaradi vse večjega pomena referenčnega merjenja so si Reuelova in njeni kolegi želeli podrobneje ogledati najpomembnejše primere, da bi dognali, katera merila so dobra in ali so tista, ki jih uporabljamo, dovolj zanesljiva. Raziskovalci so se najprej odločili preveriti objavljene rezultate, a meritev pogosto niso mogli ponoviti. Za takšno preverjanje so običajno potrebna navodila ali opis postopka z izbranim modelom, vendar jih številni razvijalci niso javno objavili, v nekaterih primerih pa so bila navodila že zastarela.
Razvijalci referenčnega merjenja pogosto ne objavijo niti vprašanj in odgovorov, s katerimi preverjajo model. Če bi to storili, bi podjetja svoje modele preprosto učila, da bi čim bolje prestala testiranje – kot bi študentom izpitna vprašanja dali na voljo vnaprej. Merila in rezultate je zato težko ovrednotiti.
Druga težava je, da so merjenja pogosto zastarela oziroma preživeta, kar pomeni, da so vsi orehi bolj ali manj strti. Vzemimo za primer preizkus s preprostimi matematičnimi nalogami. Prva generacija nekega modela UI je pri preizkusu dosegla le 20 odstotkov in ga ni opravila, druga generacija istega modela je dosegla 90 in tretja 93 odstotkov. Zunanji opazovalec bi si te dosežke razlagal, da se je napredek UI upočasnil, a po drugi razlagi je merilo postalo zastarelo zaradi uspešno rešene naloge in ni več primerno za ocenjevanje napredka. Ne meri razlike v zmožnosti med drugo in tretjo generacijo modela.
Med cilji raziskave je bilo tudi pripraviti seznam uporabnih vrednosti za referenčno merjenje. »Pomembno je razpravljati o kakovosti referenčnih merjenj, kaj pričakujemo od njih in kaj nam morajo pokazati,« je poudarila Ivanova. »Težava se skriva v tem, da ni enotnega standarda, ki bi predpisoval, kakšno mora biti. S to raziskavo poskušamo tudi sestaviti nabor ocenjevalnih meril. To bo zelo koristno.«

Tako na Stanfordskem spletišču BetterBench ocenjujejo različna referenčna merjenja.
Hkrati z raziskavo so postavili tudi novo spletišče z imenom BetterBench z opisi najbolj znanih referenčnih merjenj UI. Med merili za oceno so tudi, ali so bili strokovnjaki vključeni v zasnovo, ali je testirana zmogljivost primerno definirana in druga osnovna merila – na primer, ali je na voljo kanal za povratne informacije in ali obstajajo recenzije.
Že omenjeno referenčno merjenje z angleško kratico MMLU je dobilo najnižjo oceno. »S temi ocenami se ne strinjam. Sem avtor nekaj visoko uvrščenih razprav in rekel bi, da so slabše uvrščena referenčna merjenja boljša,« je izjavil Dan Hendrycks, direktor središča za varnost UI CAIS in eden od avtorjev MMLU. Kljub vsemu je še vedno prepričan, da bi za nadgradnjo področja potrebovali boljša referenčna merjenja.
Ali model zmore odlično analizirati Shakespearjeve sonete, je morda neuporabno za nekoga, ki ga skrbijo hekerske sposobnosti UI.
Nekateri opozarjajo, da zaradi meril ne vidimo širše slike. »Raziskava je prinesla nekaj dragocenega. Merila izvajanja in dokumentiranja so tudi pomembna in zaradi njih je referenčno merjenje kakovostnejše,« je razložil Marius Hobbhahn, direktor raziskovalne organizacije Apollo Research, ki se je specializirala za ocenjevanje UI. »Vendar je zame najpomembnejše vprašanje, ali merimo prave dejavnike. Pri vseh merilih bi lahko odgovorili z da, pa bi še vedno neprimerno ocenjevali, ker preprosto ne bi merili pomembnih dejavnikov«.
Tudi če je referenčno merjenje odlično zasnovano, je zgrešeno, če je tisto za preverjanje zmožnosti, ali model zmore odlično analizirati Shakespearjeve sonete, morda neuporabno za nekoga, ki ga skrbijo hekerske sposobnosti UI.
»Vzemimo za primer referenčno merjenje moralnosti. Morda že to, kaj naj bi to sploh pomenilo, ni jasno definirano. So v postopke vključeni strokovnjaki s tega področja? Pogosto niso,« je opozorila Amelia Hardy, še ena avtorica razprave in raziskovalka UI na Stanfordu.
Obstajajo organizacije, ki si dejavno prizadevajo za izboljšanje stanja. Tako so v raziskovalni organizaciji Epoch AI ob sodelovanju 60 matematikov zasnovali novo referenčno merjenje, ki sta ga nato zmagovalca najprestižnejše matematične nagrade, Fieldsove medalje, potrdila kot dovolj zahtevno. Sodelovanje teh strokovnjakov izpolnjuje eno od meril v oceni BetterBench. Sedanji najnaprednejši modeli zmorejo odgovoriti na manj kot dva odstotka vprašanj v referenčnem merjenju, kar pomeni, da jih do popolnosti čaka še dolga pot.
»Res smo se trudili zajeti vso širino in globino sodobnih matematičnih raziskav,« je poudaril Tamay Besiroglu, namestnik direktorja Epoch AI. Kljub zahtevnosti preizkusa se mu zdi, da bodo modeli UI že v približno štirih letih odlično prestali referenčno merjenje in dosegli več kot 80 odstotkov.
Hendrycksova organizacija, Center za varnost UI, sodeluje s Scale AI, da bi izdelali novo referenčno primerjavo, ki bo po njegovih trditvah modele UI primerjala z najnaprednejšim človeškim znanjem, kar so poimenovali Zadnji izpit človeštva (Humanity's Last Exam). »Razvila ga je mednarodna ekipa akademikov in strokovnjakov s tega področja,« je pojasnil Hendrycks. »Referenčna primerjava vključuje nedvoumna vprašanja, na katera iskalniki ne morejo odgovoriti in zahtevajo razumevanje na doktorski ravni, če jih želimo rešiti.« Vprašanja lahko prispeva tudi zainteresirana javnost.
Čeprav se mnenja o tem, kaj točno bi morali meriti, krešejo, se večina raziskovalcev strinja, da bi morali dobiti zanesljivejše referenčne vrednosti, sploh ker nakazujejo smer podjetjem in so ključni pripomoček za vlade.
»Referenčna merjenja morajo biti zelo dobra,« je izpostavila Hardyjeva. »Vsi udeleženi morajo tudi vedeti, kaj pomeni zelo dobra – tega zdaj ne vedo.«
Copyright Technology Review, distribucija Tribune Content Agency
Zakup člankov
Za plačilo lahko uporabite plačilno kartico, PayPal, Apple Pay ali Google Pay:
Najprej se morate prijaviti.
V kolikor še nimate svoje prijave, se lahko registrirate.


