2021 var året för monster-AI-modeller

GPT-3, OpenAI:s program för att efterlikna mänskligt språk,  startade en ny trend inom artificiell intelligens för större och större modeller. Hur stora kommer de att bli och till vilken kostnad?

Av

21 december 2021BLOBEN, 1958, reklamkonst Ms Tech | Everett Collection

Det har varit ett år med stora AI-modeller.

När OpenAI släppte GPT-3 i juni 2020 var det neurala nätverkets uppenbara språkförståelse kuslig. Det kan generera övertygande meningar, prata med människor och till och med autoslutföra kod. GPT-3 var också monstruös i skala – större än något annat neuralt nätverk som någonsin byggts. Det startade en helt ny trend inom AI, en där större är bättre.

Trots GPT-3:s tendens att efterlikna den bias och toxiciteten som är inneboende i onlinetexten som den tränades på, och även om det krävs en ohållbart enorm mängd datorkraft för att lära en så stor modell dess tricks, vi valde GPT-3 som en av våra banbrytande teknologier 2020 – på gott och ont.

Men effekten av GPT-3 blev ännu tydligare 2021. Detta år kom med en spridning av stora AI-modeller byggda av flera teknikföretag och ledande AI-labb, många överträffade själva GPT-3 i storlek och förmåga. Hur stora kan de bli och till vilken kostnad?

För att stödja MIT Technology Reviews journalistik bör du överväga att bli prenumerant.

GPT-3 fångade världens uppmärksamhet inte bara på grund av vad den kunde göra, utan på grund av hur den gjorde det. Det slående språnget i prestanda, särskilt GPT-3:s förmåga att generalisera över språkuppgifter som den inte hade tränats specifikt på, kom inte från bättre algoritmer (även om den är mycket beroende av en typ av neurala nätverk som uppfanns av Google 2017, kallad en transformator), men från ren storlek.

“Vi trodde att vi behövde en ny idé, men vi kom dit bara i skala”, sa Jared Kaplan, forskare på OpenAI och en av designarna av GPT-3, i en paneldiskussion i december på NeurIPS, en ledande AI-konferens.

“Vi fortsätter att se hyperskalning av AI-modeller som leder till bättre prestanda, utan att det verkar vara något slut”, skrev ett par Microsoft-forskare i oktober i ett blogginlägg där de tillkännagav företagets massiva Megatron-Turing NLG-modell , byggd i samarbete med Nvidia.

Open AI's språk AI imponerade allmänheten med sin uppenbara behärskning av engelska – men är allt en illusion?

Vad innebär det att en modell är stor? Storleken på en modell – ett tränat neuralt nätverk – mäts av antalet parametrar den har. Det här är värdena i nätverket som justeras om och om igen under träning och som sedan används för att göra modellens förutsägelser. Grovt sett, ju fler parametrar en modell har, desto mer information kan den ta upp från sina träningsdata, och desto mer exakta blir dess förutsägelser om färska data.

GPT-3 har 175 miljarder parametrar – 10 gånger fler än sin föregångare, GPT-2. Men GPT-3 är sämre än klassen 2021. Jurassic-1, en kommersiellt tillgänglig stor språkmodell som lanserades av den amerikanska startup-företaget AI21 Labs i september, slog ut GPT-3 med 178 miljarder parametrar. Gopher, en ny modell som släpptes av DeepMind i december, har 280 miljarder parametrar. Megatron-Turing NLG har 530 miljarder. Googles Switch-Transformer- och GLaM-modeller har en respektive 1,2 biljoner parametrar.

Trenden är inte bara i USA. I år byggde den kinesiska teknikjätten Huawei en språkmodell med 200 miljarder parametrar som heter PanGu. Inspur, ett annat kinesiskt företag, byggde Yuan 1.0, en modell med 245 miljarder parametrar. Baidu och Peng Cheng Laboratory, ett forskningsinstitut i Shenzhen, tillkännagav PCL-BAIDU Wenxin, en modell med 280 miljarder parametrar som Baidu redan använder i en mängd olika applikationer, inklusive internetsökning, nyhetsflöden och smarta högtalare. Och Beijing Academy of AI tillkännagav Wu Dao 2.0, som har 1,75 biljoner parametrar.

Under tiden tillkännagav det sydkoreanska internetsökföretaget Naver en modell som heter HyperCLOVA, med 204 miljarder parametrar.

Var och en av dessa är en anmärkningsvärd ingenjörskonst. Till att börja med är att träna en modell med mer än 100 miljarder parametrar ett komplext VVS-problem: hundratals individuella GPU:er – den hårdvara som väljs för att träna djupa neurala nätverk – måste anslutas och synkroniseras, och träningsdatauppdelningen måste delas upp i bitar och fördelade mellan dem i rätt ordning vid rätt tidpunkt.

Stora språkmodeller har blivit prestigeprojekt som visar upp ett företags tekniska skicklighet. Ändå är det få av dessa nya modeller som för forskningen framåt utöver att upprepa demonstrationen att uppskalning ger bra resultat.

Det finns en handfull innovationer. När de är utbildade använder Googles Switch-Transformer och GLaM en bråkdel av sina parametrar för att göra förutsägelser, så att de sparar datorkraft. PCL-Baidu Wenxin kombinerar en GPT-3-modell med en kunskapsgraf, en teknik som används i gammaldags symbolisk AI för att lagra fakta. Och tillsammans med Gopher släppte DeepMind RETRO, en språkmodell med endast 7 miljarder parametrar som konkurrerar med andra 25 gånger dess storlek genom att korsrefera en databas med dokument när den genererar text. Detta gör RETRO billigare att träna än sina gigantiska rivaler.


Date:

by