Når DARPA kjørte en konkurranse for å finne Twitter-roboter laget for å påvirke online debatter, inspirert en ny generasjon av anti-bot-strategier.
En av de mer urovekkende fenomener på Twitter er spredning av roboter som genererer tweets automatisk i et forsøk på å spre spam, for å tjene penger på ulovlig gjennom klikk-svindel, og, mest bekymringsfullt, for å påvirke diskusjonen på emner, slik som terrorisme og politikk.
Antall Twitter-kontoer som er involvert i denne typen aktivitet er ikke liten. I 2014, Twitter innrømmet at mer enn 8 prosent av sine kontoer ble automatisert—det er noen 23 millioner aktive Twitter-brukere.
Selskapet påpekte at mange av disse var helt legitimt—mange av disse kontoene åpent repost eller vise tweets fra andre brukere. Likevel er det et betydelig antall tydelig er opp til noe godt, og “innflytelse ” bots” er en spesiell bekymring.
For eksempel, gruppe kalle seg den Islamske Staten bruker online sosiale medier for å lokke unge mennesker til å omfavne deres sak. Noen observatører mener Russland begitt seg ut på en større sosiale medier desinformasjon kampanje annekteringen av Krim. Andre sier roboter spilte en betydelig rolle i å påvirke utfallet av valget i India i 2014.
Så en måte pålitelig spotting innflytelse roboter på Twitter ville være svært nyttig. Siste år, Defense Advanced Research Projects Agency (DARPA) satt ut for å finne en slik metode ved å kjøre en fire-ukers konkurranse der teamene ble bedt om å se roboter i en strøm av innlegg på temaet vaksiner. Ett lag dukket opp som en klar vinner, og resultatene viste noen signifikant nye strategier for å identifisere roboter i den virkelige verden.
I dag får vi et unikt innblikk i denne konkurransen og de strategier de lagene som er ansatt takk til en artikkel av V. S. Subrahmanian ved University of Maryland-College Park og Sentimetrix og et par kompiser.
Konkurransen var omtrent like realistisk som DARPA kunne gjøre det. Tweets var meldinger høstet fra Twitter stream under en 2014 debatt om vaksiner. I denne debatten, en rekke roboter hadde blitt opprettet som en del av en konkurranse for å se hvordan de kan påvirke diskusjonene. Så DARPA hadde bakken sannheten kunnskap om hvilke kontoer som ble kunstig og som var ekte.
Den totale datasettet inneholdt over fire millioner meldinger fra mer enn 7000 kontoer, hvorav 39 var roboter, enten i pro – eller anti-vaksinasjon lobbyer. Hver meldingen inneholdt en unik ID, en brukerprofil, inkludert et bilde, en url, og et bilde, der disse ble inkludert. Dataene også inkludert en tid og dato stempel samt informasjon om tilhengere og når en konto unfollowed en annen. Alt dette ble spilt til konkurrenter i en syntetisk Twitter miljø over fire uker i februar og Mars.
Lagene hadde da å analysere denne Twitter-stream, og gjett hvilke brukere var roboter. Hvert riktig gjette fikk dem et enkelt punkt, men et lag tapt 0.25 poeng for hver feil gjetning. Et lag som gjettet alle roboter d dager før slutten av utfordringen fikk også d poeng, siden DARPA er spesielt interessert i tidlig påvisning av innflytelse roboter.
Det vinnende laget var fra social media analytics selskapet Sentimetrix, som gjettet alle roboter 12 dager i forkant av fristen mens du gjør bare en feil gjetning. Som ga dem en score på 50.75 poeng. (Den andre-plass team fra University of Southern California, scoret 45 poeng, og finne alle roboter seks dager i forkant av fristen med ingen feil gjetninger.)
Den vinnende strategier er avslørende. Lagene begynte med forsøk på å identifisere et første sett av roboter i dataene. Det er interessant at ingen av lagene var i stand til å automatisere dette steget og mest brukte betydelig menneskelig input.
Sentimetrix brukt en pretrained algoritme for å søke etter bot-lignende oppførsel. Laget hadde trent denne algoritmen på Twitter data fra 2014 Indiske valget som inneholdt mange boter. Det så ut for uvanlig grammatikk, likheten i lingvistikk til naturlig språk chatbots som Eliza, og uvanlig adferd, slik som lengre perioder av tweeting uten en pause, at et menneske kunne ikke er lett å utføre.
Dette avdekket fire kontoer som ble tydelig roboter, og Sentimetrix deretter brukt disse for å finne andre. En forutsetning var at bot-produsentene har en tendens til å produsere mange lignende roboter og koble dem til hverandre for å øke sin popularitet. Så laget var i stand til å bruke nettverk og cluster-analyse for å finne andre sannsynlig roboter, som de deretter i forhold til kjente roboter.
Teamet har også brukt funksjoner som den timelige aktivitet av regnskapet på den forutsetning at en automatisert konto vil vise uvanlige sammenhenger. Sentimetrix så også for brukere som endret troskap under debatten fra pro – anti-vaksinasjon (eller vice versa). Dette har de antok kunne være en bot strategi for å infiltrere en side av argumentet, og deretter poste motstridende argumenter.
En viktig funksjon i Sentimetrix suksessen var slik det så for meg at resultatene av sitt arbeid på en online dashboard, slik at en menneskelig bruker enkelt skal kunne se statusen til analyse for hver bruker.
I denne andre fasen, Sentimetrix identifisert en annen 25 roboter. Som ga dem nok data til å trene en maskin læring algoritme for å jakte gjennom data for andre roboter. Og denne tilnærmingen førte dem til de resterende 10 roboter.
Lagene visste ikke hvor mange boter var på arbeid, så det er et stort problem var å vite når du skal stoppe å søke. Sentimetrix, for eksempel, stoppet da det ikke lenger kunne finne kontoer som så ut som roboter.
Det er imponerende arbeid som kan ha en viktig innflytelse på arbeidet med å finne roboter som prøver innflytelse online diskusjoner på upassende måter. Publisering strategier som dette bør hjelpe andre spillere utvikle anti-bot taktikk, også.
Men det kan også ha en negativ innvirkning. Kampen mellom roboter og bot-jegere er en som er i stadig utvikling. Med papirer som dette, bot-jegere er å avsløre sin hånd på en måte som gjør bot-beslutningstakere til å utforme strategier for spesielt å beseire disse algoritmene. På en måte, det er som å slåss med en hand bundet bak ryggen din.
Likevel, fristelsen til å holde bot-jakt strategier hemmelig ville være farlig å fremme. Denne typen åpenhet er en del av vår fritt samfunn, og sikkert en av de viktigste grunnene til at det er verdt å kjempe for å bevare.
Uansett, denne katt-og-mus-kampen er satt til å fortsette.
Ref: DARPA Twitter Bot Utfordring : arxiv.org/abs/1601.05140
