Objavljeno: 25.1.2022 | Monitor Februar 2022

V znamenju vrhunske umetne inteligence

Ko je podjetje OpenAI junija 2020 predstavilo jezikovni model GPT-3, so uporabniki osupnili nad tem, kako dobro je ta nevronska mreža obvladala jezik. Sestavljala je verodostojne stavke, klepetala z ljudmi in celo samodejno dopolnjevala kod. Poleg tega je bil GPT-3 pošastno velik – večji od vseh drugih nevronskih mrež, kar so jih razvili. Sprožil je povsem nov trend na področju umetne inteligence, za katerega velja, da je večje boljše.

Will Douglas Heaven, MIT Technology Review

Kljub nagnjenju GPT-3 k posnemanju predsodkov in neslanosti, ki jih vsebujejo spletna besedila, s katerimi so ga usposabljali, in čeprav je za učenje tako velikega modela potrebna nevzdržno veliko računske moči, je obveljal za eno od prelomnih tehnologij leta 2020 z vsemi svojimi odlikami in napakami vred.

Vpliv GPT-3 je postal še izrazitejši lani, ko je prišlo do uveljavitve velikih modelov, ki so jih razvili v več tehnoloških podjetjih in vrhunskih laboratorijih za umetno inteligenco. Mnogi od njih so celo presegli GPT-3 tako po velikosti kot zmožnosti. Kako veliki torej lahko postanejo in za kakšno ceno?

GPT-3 pozornosti sveta ni pritegnil le zaradi tega, kar zmore, temveč tudi s tem, kako to doseže. Osupljivi skok pri učinkovitosti, sploh njegova zmožnost posploševanja pri jezikovnih nalogah, za katere ga sploh niso posebej usposabljali, ni posledica boljših algoritmov (čeprav se močno zanaša na tip nevronske mreže, ki jo je leta 2017 izumil Google in se imenuje transformer), temveč same velikosti.

»Mislili smo, da potrebujemo svežo zamisel, pa je zadostovala že velikost,« je na najpomembnejši konferenci o umetni inteligenci NeurIPS decembra lani povedal Jared Kaplan, raziskovalec v podjetju OpenAI in eden od snovalcev GPT-3.

»Širjenje modelov umetne inteligence zaradi boljše učinkovitosti se nadaljuje. Zdi se, da temu ne bo konca,« sta Microsoftova raziskovalca oktobra zapisala na blogu, kjer sta napovedala tudi mogočen model Megatron-Turing NLG, ki ga je Microsoft razvil v sodelovanju z Nvidio.

Kaj pomeni, da je model velik? Velikost modela oziroma usposabljane nevronske mreže se meri po številu parametrov. To so vrednosti v mreži, ki jih med učenjem nenehno ponastavljajo in nato na njihovi podlagi izdelajo napovedi za model. Povedano preprosto, čim več parametrov ima model, tem več podatkov lahko posrka iz materiala za učenje in tem natančnejše bodo njegove napovedi o svežih podatkih.

GPT-3 vključuje 175 milijard parametrov, kar je desetkrat več od predhodnika GPT-2, vendar je tudi novejši model prehitela generacija 2021. Jurassic-1, veliki komercialni jezikovni model, ki ga je septembra predstavilo ameriško zagonsko podjetje AI21, ga je prehitel s 178 milijardami parametrov. Gopher, novi model DeepMinda, ki je na trg prišel decembra lani, ima 280 milijard parametrov, Megatron-Turing NLG jih ima 530 milijard, Googlov Switch-Transformer bilijon in modeli GLaM 1,2 bilijona.

Podoben trend je mogoče spremljati tudi v drugih državah. Kitajski tehnološki velikan Huawei je lani zgradil jezikovni model PanGu z 200 milijardami parametrov. Drugo kitajsko podjetje, Inspur, je razvilo Yuan 1.0, model z 245 milijardami parametrov. Baidu in laboratorij Peng Cheng, raziskovalni institut v Šenzenu, sta napovedala model PCL-BAIDU Wenxin z 280 milijardami parametrov. Baidu ga že uporablja za vrsto aplikacij, vključno s spletnim iskanjem, z viri novic in s pametnimi zvočniki. Pekinška akademija za umetno inteligenco pa razvija Wu Dao 2.0 z 1,75 bilijona parametrov.

Južnokorejsko podjetje Naver za internetno brskanje bo predstavilo model, imenovan HyperCLOVA, ki se bo lahko pohvalil z 204 milijardami parametrov.

Vsak teh modelov je inženirski presežek. Za začetek je učenje modela z več kot sto milijardami parametrov zapleten inštalaterski izziv: na stotine posameznih grafičnih procesnih enot – to je najprimernejša strojna oprema za učenje globokih nevronskih mrež – je treba povezati in uskladiti, podatke za učenje pa razdeliti na sklope in porazdeliti med enotami v pravem vrstnem redu v primernem času.

Veliki jezikovni modeli so postali prestižni projekti, s katerimi podjetje razkazuje svoje tehnične veščine. A le malo novih modelov je raziskave popeljalo dlje od ponovitve prikaza, da večje merilo prinese boljše rezultate.

Inovacije bi lahko prešteli na prste ene roke. Ko je učenje Googlovega Switch-Transformerja in GLaMa zaključeno, za napovedovanje uporabljata le delček parametrov, da prihranijo računsko moč. PCL-BAIDU Wenxin je model v slogu GPT povezal z grafom znanja, s tehniko, ki so jo uporabljali v tradicionalni simbolični umetni inteligenci za shranjevanje dejstev. DeepMind je poleg Gopherja izdelal tudi Retro, jezikovni model s komaj sedmimi milijardami parametrov, ki se kosa s 25-krat večjimi modeli, tako da se med sestavljanjem besedila navzkrižno sklicuje na podatkovno zbirko dokumentov. Učenje Retra je zato manj drago od učenja tekmecev.

Kljub vratolomnim uspehom strokovnjaki še vedno ne razumejo točno, zakaj povečanje števila parametrov pripomore k boljšemu delovanju, poleg tega še niso našli rešitve za neprimeren jezik ter lažne informacije, ki se jih ti modeli naučijo in jih tudi ponovijo. Kot je prvotna ekipa za GPT-3 priznala v strokovni razpravi, v kateri je opisala tehnologijo: »Modeli, ki so jih učili ob pomoči interneta, imajo predsodke, kot se pojavljajo na internetu.«

DeepMind trdi, da je podatkovno zbirko Retra laže očistiti neprimernega jezika kot monolitski model s črno škatlo, vendar tega ni obširneje preverjal. Globlji vpogled bo morda ponudila pobuda konzorcija BigScience, ki jo je začelo podjetje Hugging Face. Sodeluje približno 500 raziskovalcev, številni od njih delajo v tehnoloških velikanih, ki žrtvujejo svoj čas, da bi razvili in preučili odprtokodni jezikovni model.

V razpravi, objavljeni na začetku lanskega leta, so Timnit Gebru in njeni kolegi osvetlili vrsto nerazrešenih težav z modelom, podobnim GPT-3. »Sprašujemo se, ali so dovolj razmislili o morebitnih nevarnostih, povezanih z razvojem, in strategijah za omejevanje tega tveganja,« so zapisali.

Kljub vsem naporom, vloženim v razvoj novih jezikovnih modelov, se umetna inteligenca ne more rešiti svoje sence GPT-3. »Čez 10 ali 20 let bodo veliki modeli nekaj običajnega,« je na konferenci NeurIPS povedal Kaplan. Če bo res tako, je skrajni čas, da se raziskovalci nehajo osredotočati le na velikost modela, temveč se posvetijo tudi temu, kaj početi z njim.

Copyright Technology Review, distribucija Tribune Content Agency

Zakup člankov

Za plačilo lahko uporabite plačilno kartico, PayPal, Apple Pay ali Google Pay:

Najprej se morate prijaviti.
V kolikor še nimate svoje prijave, se lahko registrirate.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

V znamenju vrhunske umetne inteligence

Zakup člankov

Komentirajo lahko le prijavljeni uporabniki

Najnovejša številka revije