2021 var året for monster AI-modeller

GPT-3, OpenAI's program til at efterligne menneskeligt sprog, satte gang i en ny trend inden for kunstig intelligens for større og større modeller. Hvor store bliver de, og til hvilken pris?

Af

21. december 2021THE BLOB, 1958, salgsfremmende kunstværkBLOBEN, 1958, reklamekunst Ms Tech | Everett Collection

Det har været et år med store AI-modeller.

Da OpenAI udgav GPT-3 i juni 2020, var det neurale netværks tilsyneladende sprogforståelse uhyggelig. Det kunne generere overbevisende sætninger, tale med mennesker og endda autofuldførelseskode. GPT-3 var også monstrøs i skala – større end noget andet neuralt netværk nogensinde bygget. Det startede en helt ny trend inden for kunstig intelligens, hvor større er bedre.

På trods af GPT-3's tendens til at efterligne bias og toksicitet iboende i onlineteksten, den blev trænet i, og selvom der kræves en uholdbart enorm mængde computerkraft for at lære en så stor model dens tricks, valgte GPT-3 som en af ​​vores banebrydende teknologier i 2020 – på godt og ondt.

Men virkningen af ​​GPT-3 blev endnu tydeligere i 2021. Dette år bragte en udbredelse af store AI-modeller bygget af flere tech-firmaer og top AI-laboratorier, hvoraf mange overgik selve GPT-3 i størrelse og evne. Hvor store kan de blive, og til hvilken pris?

For at støtte MIT Technology Review's journalistik bør du overveje at blive abonnent.

GPT-3 fangede verdens opmærksomhed ikke kun på grund af, hvad den kunne, men på grund af, hvordan den gjorde det. Det slående spring i ydeevne, især GPT-3's evne til at generalisere på tværs af sprogopgaver, som den ikke var blevet specifikt trænet i, kom ikke fra bedre algoritmer (selvom den i høj grad er afhængig af en type neuralt netværk opfundet af Google i 2017, kaldet en transformer), men fra ren størrelse.

“Vi troede, vi havde brug for en ny idé, men vi nåede dertil bare efter skala,” sagde Jared Kaplan, en forsker ved OpenAI og en af ​​designerne af GPT-3, i en paneldebat i december på NeurIPS, en førende AI-konference.

“Vi fortsætter med at se hyperskalering af AI-modeller, der fører til bedre ydeevne, med tilsyneladende ingen ende i sigte,” skrev et par Microsoft-forskere i oktober i et blogindlæg, der annoncerer virksomhedens massive Megatron-Turing NLG-model , bygget i samarbejde med Nvidia.

Open AI's sprog AI imponerede offentligheden med dets tilsyneladende beherskelse af engelsk – men er det hele en illusion?

Hvad betyder det for en model at være stor? Størrelsen af ​​en model – et trænet neuralt netværk – måles ved antallet af parametre, den har. Det er de værdier i netværket, der bliver justeret igen og igen under træning og derefter bruges til at lave modellens forudsigelser. Groft sagt, jo flere parametre en model har, jo mere information kan den opsuge fra dens træningsdata, og jo mere nøjagtige vil dens forudsigelser om friske data være.

GPT-3 har 175 milliarder parametre – 10 gange flere end sin forgænger, GPT-2. Men GPT-3 er overskredet i forhold til klassen i 2021. Jurassic-1, en kommercielt tilgængelig stor sprogmodel, lanceret af det amerikanske startup AI21 Labs i september, klarede GPT-3 med 178 milliarder parametre. Gopher, en ny model udgivet af DeepMind i december, har 280 milliarder parametre. Megatron-Turing NLG har 530 mia. Googles Switch-Transformer- og GLaM-modeller har henholdsvis en og 1,2 billioner parametre.

Tendensen er ikke kun i USA. I år byggede den kinesiske teknologigigant Huawei en sprogmodel med 200 milliarder parametre kaldet PanGu. Inspur, et andet kinesisk firma, byggede Yuan 1.0, en model med 245 milliarder parametre. Baidu og Peng Cheng Laboratory, et forskningsinstitut i Shenzhen, annoncerede PCL-BAIDU Wenxin, en model med 280 milliarder parametre, som Baidu allerede bruger i en række forskellige applikationer, herunder internetsøgning, nyhedsfeeds og smarthøjttalere. Og Beijing Academy of AI annoncerede Wu Dao 2.0, som har 1,75 billioner parametre.

I mellemtiden annoncerede det sydkoreanske internetsøgefirma Naver en model kaldet HyperCLOVA med 204 milliarder parametre.

Hver af disse er en bemærkelsesværdig ingeniørmæssig bedrift. Til at begynde med er træning af en model med mere end 100 milliarder parametre et komplekst VVS-problem: hundredvis af individuelle GPU'er – den foretrukne hardware til træning af dybe neurale netværk – skal forbindes og synkroniseres, og træningsdataopdelingen skal være i bidder og fordelt mellem dem i den rigtige rækkefølge på det rigtige tidspunkt.

Store sprogmodeller er blevet prestigeprojekter, der viser en virksomheds tekniske dygtighed. Alligevel er det få af disse nye modeller, der flytter forskningen videre end at gentage demonstrationen af, at opskalering giver gode resultater.

Der er en håndfuld innovationer. Når de er blevet trænet, bruger Googles Switch-Transformer og GLaM en brøkdel af deres parametre til at lave forudsigelser, så de sparer computerkraft. PCL-Baidu Wenxin kombinerer en model i GPT-3-stil med en vidensgraf, en teknik, der bruges i gammeldags symbolsk AI til at gemme fakta. Og sammen med Gopher udgav DeepMind RETRO, en sprogmodel med kun 7 milliarder parametre, der konkurrerer med andre 25 gange dens størrelse ved at krydshenvise en database med dokumenter, når den genererer tekst. Dette gør RETRO billigere at træne end sine gigantiske rivaler.


Date:

by