Hur DARPA Tog På Twitter Bot Hotet med En Hand Bakom Ryggen

När DARPA pågick en tävling för att hitta Twitter robotar som syftar till att påverka online-debatter, har inspirerat en ny generation anti-bot strategier.

En av de mer störande fenomen på Twitter är spridning av robotar att generera tweets automatiskt i ett försök att sprida spam, för att tjäna pengar olagligt genom att klicka på bedrägeri, och det som är mest oroande, för att påverka den diskussion om ämnen som till exempel terrorism och politik.

Många Twitter-konton involverade i denna typ av verksamhet är inte små. I och med 2014, Twitter medgav att mer än 8 procent av dess räkenskaper var automatiserade—det är cirka 23 miljoner aktiva Twitter-användare.

Bolaget påpekade att många av dessa var helt legitimt—många av dessa konton öppet återanvänt eller visar tweets från andra användare. Men ett stort antal är det naturligtvis inte bra, och “inflytande bots” är en viss oro.

Till exempel, den grupp som kallar sig Islamiska Staten använder sociala medier för att övertyga unga människor att anamma deras sak. En del bedömare tror att Ryssland inlett en större social media desinformation kampanj annekteringen av Krim. Andra säger att robotar spelat en betydande roll i att påverka resultatet av valet i Indien 2014.

Så ett sätt att på ett tillförlitligt sätt spotting inflytande robotar på Twitter skulle vara enormt nyttigt. Förra året, Defense Advanced Research Projects Agency (DARPA) anges för att hitta en sådan metod genom att köra en fyra veckors tävling där lag ombads att upptäcka robotar i en ström av inlägg på ämnet av vaccinationer. Ett lag som vuxit fram som en tydlig vinnare, och resultaten visade att en del betydande nya strategier för att identifiera robotar i den verkliga världen.

Idag får vi en unik inblick i denna tävling och de strategier de arbetslag som arbetar tack vare en artikel av V. S. Subrahmanian vid University of Maryland i College Park och Sentimetrix och några kompisar.

Tävlingen var ungefär lika realistiskt som DARPA skulle kunna göra det. Tweets var meddelanden som skördats från Twitter ström under 2014 debatt om vaccinationer. I denna debatt, ett antal robotar hade skapats som en del av en tävling för att se hur de kan påverka diskussionerna. Så DARPA hade marken sanningen kunskap om vilka konton som var konstgjorda och som var verkliga.

Totalt dataset som finns över fyra miljoner meddelanden från mer än 7 000 konton varav 39 var robotar i antingen pro – eller anti-vaccination lobbygrupper. Varje meddelandet innehöll ett unikt ID, en profil, inklusive en bild, en url, och en bild, där dessa ingår. Uppgifterna ingår också en tid-och datumstämpel samt information om anhängare och när ett konto unfollowed en annan. Allt detta spelades till konkurrenter i ett syntetiskt Twitter-omgivning under fyra veckor i februari och Mars.

Lagen fick sedan analysera detta Twitter-stream och gissa vilka användare som robotar. Varje rätt gissning fick dem en enda punkt, men ett lag förlorade med 0,25 poäng för varje felaktig gissning. Ett lag som gissade alla robotar d dagar före utgången av den utmaning som också fick d-punkter, eftersom DARPA är särskilt intresserad av tidig upptäckt av inflytande robotar.

Det vinnande laget var från social media analytics företaget Sentimetrix, som gissade alla robotar 12 dagar före den tidsfrist samtidigt som endast en felaktig gissning. Det gav dem en värdering av 50,75 kronor punkter. (På andra plats team från University of Southern California, har fått 45 poäng, hitta alla robotar sex dagar före den deadline med felaktiga gissningar.)

Vinnande strategier är avslöjande. Lagen började med att försöka identifiera en första uppsättning av robotar i data. Intressant, ingen av lagen hade möjlighet att automatisera detta steg och används mest betydande mänsklig input.

Sentimetrix används en pretrained algoritm för att söka bot-liknande beteende. Laget hade tränat denna algoritm på Twitter data från 2014 Indiska valet som innehöll många robotar. Det såg ut för ovanliga grammatik, likheten i lingvistik naturligt språk chatbots som Eliza, och ovanliga beteenden såsom långa perioder av att twittra utan att ett brott som en människa kan inte utföra lätt.

Denna visade på fyra konton som var klart bots, och Sentimetrix sedan används dessa för att hitta andra. Ett antagande var att bot-beslutsfattare tenderar att producera många liknande robotar och länka dem till varandra för att öka sin popularitet. Så laget kunde använda nätverk och kluster analys för att hitta andra sannolikt robotar, som de sedan jämfört med kända robotar.

Teamet använde även funktioner som den tidsmässiga verksamhet konton på antagandet att en automatiserad konto skulle visa ovanliga mönster. Sentimetrix tittade även för användare som ändrade trohet under debatten från pro – anti-vaccination (eller vice versa). Detta antog de kan vara en bot strategi för att infiltrera den ena sidan av argumentet och sedan lägga motpartens argument.

Ett viktigt inslag i Sentimetrix framgång var så det visualiseras resultaten av sitt arbete på ett online dashboard så att en mänsklig användare lätt kan se status för analys för varje användare.

I detta andra steg, Sentimetrix identifierat ytterligare 25 robotar. Som gav dem tillräckligt med data för att träna en maskin lärande algoritm för att jaga genom data för andra robotar. Och detta synsätt ledde dem till de återstående 10 robotar.

De lag som inte vet hur många robotar som var på jobbet så att ett stort problem var att veta när man ska sluta leta. Sentimetrix, till exempel stoppas när det inte längre kunde hitta konton som såg ut som robotar.

Det är ett imponerande arbete för att kunna ha en viktig inverkan på arbetet med att hitta robotar som försöker påverka diskussioner på nätet i ett olämpligt sätt. Publicering av de strategier som detta bör hjälpa andra aktörer utveckla anti-bot taktik också.

Men det kan också ha en negativ inverkan. Striden mellan robotar och bot-jägare är något som ständigt utvecklas. Med papper som denna, bot-jägare är att avslöja sin hand på ett sätt som gör bot beslutsfattarna att utforma strategier för att specifikt besegra dessa algoritmer. På ett sätt är det som att slåss med en hand bunden bakom ryggen.

Trots frestelsen att hålla bot-jakt strategier hemlighet skulle vara farligt att främja. Denna typ av öppenhet är en del av vårt samhälle fritt och säkert en av de viktigaste anledningarna till att det är värt att kämpa för att bevara.

Hursomhelst, den här katt-och-mus slaget är inställd på att fortsätta.

Ref: DARPA Twitter Bot Utmaning : arxiv.org/abs/1601.05140


Date:

by