Hur en ex-YouTube insider undersökta sin hemliga algoritm

Den metod som Guillaume Chaslot som används för att upptäcka videor YouTube var att rekommendera under valet – och hur Guardian analyserat data

  • Läs berättelsen: hur YouTube algoritm förvränger sanningen

Fre 2 Feb 2018 12.00 GMT

Senast ändrad Fre 2 Feb 2018 12.02 GMT

Guillame Chaslot, an ex-Google software engineer, developed a program to scrutinise YouTube’s algorithm.

Guillame Chaslot, en ex-Google software engineer, utvecklat ett program för att granska YouTube ‘ s algoritm.
Foto: Talia Herman för Guardian

YouTube rekommendation systemet bygger på tekniker inom maskininlärning för att bestämma vilka filmer är auto-spelas eller visas som “up next”. Den exakta formeln använder, dock är hemlig. Aggregerade data att avslöja vilka YouTube-videor är starkt främjas av algoritm, eller hur hur många visningar enskilda videor får från “up next” förslag, är också undanhållas allmänheten.

Avslöja att data som skulle göra det möjligt för akademiska institutioner, faktum-pjäser och tillsynsmyndigheter (även journalister) för att bedöma vilken typ av innehåll YouTube är mest troligt att främja. Genom att hålla algoritmen och dess resultat i wraps, YouTube ser till att alla mönster som tyder på oavsiktliga fel eller snedvridningar i samband med sin algoritm är dolda från allmänheten.

Genom att sätta en mur runt sin data, YouTube, som ägs av Google, skyddar sig från kontroll. De datorprogram som skrivits av Guillaume Chaslot som övervinner hinder för att tvinga en viss grad av öppenhet.

Ex-Google-ingenjör sade hans metod för att extrahera data från video-sharing webbplats kan inte ge en heltäckande eller helt representativt urval av de filmer som rekommenderas. Men det kan ge en ögonblicksbild. Han har använt sin programvara för att upptäcka YouTube rekommendationer inom en rad olika ämnen och publicerar resultaten på sin webbplats. algotransparency.org.

Hur Chaslot programvara fungerar

Programmet simulerar beteendet hos en YouTube-användare. Under valet, det fungerade som en YouTube-användare kan ha om hon var intresserad av någon av de två främsta presidentkandidaterna. Det upptäckte en video via en YouTube-sökning, och sedan följde en kedja av YouTube–rekommenderas titlar som förekommer är “up next”.

Chaslot programmerade sin programvara för att få den inledande videoklipp via YouTube-sökningar för antingen “Trumf” eller “Clinton”, alternerande mellan de två för att se till att de som var för sökt 50% av tiden. Det sedan klickade på flera sökresultat (vanligtvis fem videor) och fångade som videoklipp på YouTube var att rekommendera “up next”.

Processen upprepades, denna gång genom att välja ett urval av dessa videor på YouTube hade bara ut “nästa”, och att identifiera vilka videoklipp som algoritmen var, i sin tur, visa upp bredvid dem. Processen upprepas tusentals gånger, samla fler och fler lager av data om de videor YouTube var att främja sina transportband av rekommenderade filmer.

‘Fiction är överträffar verkligheten: hur YouTube algoritm förvränger sanningen

Läs mer

Genom design, programmet som drivs utan en visning historia, se det var att fånga generiska YouTube rekommendationer snarare än de som är anpassat till enskilda användare.

Uppgifterna var förmodligen påverkad av de ämnen som råkade vara trending på YouTube på de datum som han valde att köra programmet: 22 augusti, 18 och 26 oktober, 29-31 oktober, och 1-7 November.

På de flesta av dessa datum, programvaran var programmerad till att börja med fem filmer som erhållits genom sökning, fånga de första fem rekommenderade videor, och upprepa fem gånger. Men på en handfull av datum, Chaslot fixade hans program, som inleds med tre eller fyra söka videos, genom att ta tre eller fyra lager av rekommenderade videor, och upprepa processen för upp till sex gånger i rad.

Beroende på kombinationer av sökningar, rekommendationer och upprepar Chaslot används, programmet var att göra samma sak: att upptäcka filmer som YouTube var att placera “nästa” så lockande miniatyrer på den högra sidan av video-spelare.

Hans program upptäckte också variationer i hur hög grad YouTube verkade vara att trycka innehåll. Vissa filmer, till exempel, dök “upp nästa” intill bara en handfull andra filmer. Andra dök upp “nästa” bredvid hundratals olika filmer över flera datum.

Totalt Chaslot s databas registreras 8,052 videor som rekommenderas av YouTube. Han har gjort koden bakom hans program tillgängliga för allmänheten här. The Guardian har publicerat den fullständiga listan över videoklipp i Chaslot s databas här.

Innehåll analys

The Guardian forskning ingår en bred studie av alla 8,052 videor samt ett mer fokuserat innehåll analys, som bedöms 1 000 av den högsta rekommenderade filmer i databasen. De undergrupper identifierades genom att rangordna filmerna, i första hand genom antalet datum de blev rekommenderade, och sedan med antalet gånger de har upptäckts visas “upp nästa” bredvid en annan video.

Vi bedömt topp 500 video som rekommenderas efter en sökning på termen “Trumf” och de 500 bästa videor som rekommenderas efter en “Clinton” sök. Varje enskild video var granskas för att avgöra om det var uppenbart partiska och, om så är fallet, om video gynnade den Republikanska eller Demokratiska president-kampanj. För att bedöma detta, vi såg innehållet i filmer och ansåg att deras titlar.

Ungefär en tredjedel av de videor som ansågs antingen vara kopplad till valet, politiskt neutral eller inte tillräckligt vinklad för att motivera att bli klassad som gynnar antingen kampanj. (Ett exempel på en video som var kopplad till valet var en med titeln “10 Intima Scener Aktörer Var Generad över att Filmen”, ett exempel på en video som anses vara politiskt neutrala eller till och med hand var detta NBC News sändning av den andra presidentvalsdebatten.)

Många vanliga nyheter klipp, inklusive de från MSNBC, Fox och CNN, var dömda att falla i “rättvis” kategori, som var många vanliga komedi klipp som skapats av gillar Saturday Night Live, John Oliver och Stephen Colbert.

Att formulera en syn på dessa filmer var en subjektiv process, men för det mesta var det väldigt uppenbart vilken kandidat videor nytta. Det fanns några undantag. Till exempel, vissa kanske anser att detta CNN-klippet, där en Trumf anhängare kraftfullt försvarade sin skändliga kommentarer och starkt kritiserade Hillary Clinton och hennes make, för att vara till nytta för den Republikanska. Andra kan peka på CNN-ankaret förtvivlade svar, och argumentera för den filmen var faktiskt bra att Clinton. I slutet, den här videon var för svårt för oss att kategorisera. Det är ett exempel på en video som anges som inte är till fördel för någon av kandidaterna.

För två tredjedelar av videoklipp, men processen för att bedöma vem som innehåll gynnats var relativt okomplicerad. Många videor tydligt lutade mot en kandidat eller det andra. Till exempel, en video av ett tal som Michelle Obama var mycket kritisk till Trump behandling av kvinnor som bedömdes vara lutat för Clinton. En video felaktigt hävdar Clinton drabbats av ett psykiskt sammanbrott var kategoriseras som gynnar Trump kampanj.

Vi fann att de flesta av de filmer som är märkta som gynnar Trump-kampanj kan vara mer korrekt beskrivas som mycket kritisk till Clinton. Många är vad som kan beskrivas som anti-Clinton konspiration video eller “falska nyheter”. Databasen verkade mycket skeva mot innehållet kritiskt mot den Demokratiska kandidaten. Men för att syftet med kategorisering, dessa typer av filmer, såsom en video med titeln “WHOA! HILLARY TROR att KAMERAN ÄR AVSTÄNGD… SKICKAR CHOCK MEDDELANDE TILL TRUMF”, togs upp som gynnar Trump kampanj.

Saknas videor och fördomar

Ungefär hälften av YouTube-rekommenderade filmer i databasen har tagits offline eller privat sedan valet, antingen på grund av att de togs bort av den som laddat upp dem eller för att de togs ner från YouTube. Det kan vara på grund av ett brott mot upphovsrätten, eller på grund av att videon innehöll en del andra brott mot företagets policy.

Vi kunde inte titta på original av saknade video. De var därför utesluten från vår första omgång av innehållsanalys, vilket ingår endast de filmer som vi kan titta på, och drog slutsatsen att 84% av partisan videor var positiva till Trump, medan endast 16% att de var positiva till Clinton.

Intressant, bias var marginellt större när YouTube rekommendationer upptäcktes efter en inledande sökning på “Clinton” videor. Dessa resulterade i 88% av partisan “Up next” videos vara fördelaktigt att Trump. När Chaslot program upptäcks rekommenderade videoklipp efter en “Trumf” sök, i kontrast, 81% av partisan videor var positiva till Trump.

Som sagt, “Up next” video följande från “Clinton” och “Trumf” – videor ofta visade sig vara samma eller mycket liknande titlar. Den typ av innehåll som rekommenderas var i båda fallen att en överväldigande majoritet positiva till Trump, med en förvånande mängd av konspiratorisk innehåll och falska nyheter skadligt för Clinton.

Kompletterande räkna

Efter det räknar endast de filmer som vi kan titta på, vi genomförde en andra analys till att omfatta de saknade filmer med titlar som starkt anges innehållet skulle ha varit fördelaktigt att en av de kampanjer. Det var också ofta möjligt att hitta dubbletter av dessa filmer.

Två rekommenderas starkt videoklipp i databasen med ensidig titlar var, till exempel, med titeln “den Här Videon Får Donald Trump Valda” och “Måste Titta!! Hillary Clinton försökte förbjuda denna video”. Båda dessa kategoriserats i den andra omgången, som fördelaktigt att Trump kampanj.

När alla 1 000 videor var stämde – bland annat saknas videor med mycket sneda titlar – vi räknade 643 videoklipp som hade en uppenbar partiskhet. Av dessa, 551 videor (86%) gynnade Republikanernas kandidat, medan endast 92 videor (14%) var positiva till Clinton.

Om saknas videor ingår i vår stämmer eller inte, resultatet blev det samma. Partisan videor som rekommenderas av YouTube i databasen var ungefär sex gånger mer sannolikt att gynna Trump ‘ s kampanj än Clinton.

Databasen analys

Alla 8,052 videor var rankas av ett antal “rekommendationer” – det är det antal gånger de har upptäckts visas som “Up next” bredvid miniatyrbilder andra filmer. Till exempel, om en video upptäcktes visas “Upp nästa” bredvid fyra andra filmer, som skulle räknas som fyra “rekommendationer”. Om en video dök “Upp nästa” vid samma video på, säg, tre olika datum, som skulle räknas som tre “rekommendationer”. (Flera rekommendationer mellan samma filmer på samma dag var inte räknas).

    Här är de 25 mest rekommenderade videor, enligt ovanstående mått.

  1. Trump anhängare lämnar CNN-ankare mållös
  2. Denna Video Kommer Att Få Donald Trump Valda
  3. Måste Titta!! Hillary Clinton försökte förbjuda denna video
  4. SR# 1271 NBC Crew – Sneda hillarys MASSIV HÄRDSMÄLTA på Commander-in-Chief Forum
  5. 10 Foton av MELANIA TRUMP Önskar att Vi skulle Glömma
  6. Hela Intervjun: Donald Trump, Melania & Familj med George Stephanopoulos
  7. Busted! Bill Clinton ‘ s Ansikte När Trump Tar Upp Våldtäkt Anklagelser är Ovärderliga
  8. Donald Trump Har Vunnit Presidentvalet 2016
  9. Arg Ivanka Trump Går Ut Ur Cosmo Intervju
  10. TRUMP: KOMMER JORDSKRED ~Gammal Profetia Dokumentär av Donald Trump / 2016
  11. ANONYM TITTA PÅ – HILLARY CLINTON, DU ÄR KLAR!
  12. “Obama:” President Barack Obama är lustiga slutliga White House correspondents’ dinner tal
  13. Titta På Live: Den Sista Debatten
  14. Kan Donald Trump vinna presidentvalet?
  15. Michelle Obama ‘ s EPISKA Tal På Trump Sexuellt Beteende (FULL | HD)
  16. ALLA LÄCKT TRUMP BILDER Otrevliga kommentarerna på Dotter Ivanka Mini-Dokumentär
  17. Melania Trump – Kvinnan Bakom Kalle
  18. BREAKING: VIDEO SOM VISAR BILL CLINTON FÖR ATT HA VÅLDTAGIT 13 ÅR GAMLA KOMMER ATT STÖRTA RACE I KAOS ANONYMA PÅSTÅENDEN
  19. Att BRYTA!!! JULIAN ASSANGE “DEAD MAN BYTA” släcks efter UTSÄTTA Hillary Clinton?
  20. Bill Clintons Sexuella Eskapader
  21. Anonym Release Ben-Kylning video av Huma Abedin varje Amerikan Måste att Se
  22. BREAKING: Michael Moore Erkänner Trump Är Rätt
  23. BREAKING: FBI Öppnar igen Hillary Clinton E-Undersökning
  24. Full monolog: Donald Trump stekar Hillary Clinton på Al Smith välgörenhet middag
  25. Hillary Fusk IGEN?? Debatt #3 Hörlurar OCH Teleprompter?? ÅKTE PÅ TV!

Chaslot s databas innehöll även information YouTube-kanaler som används för att sända video. (Dessa uppgifter var endast delvis, eftersom det inte var möjligt att identifiera kanaler bakom saknade video.) Här är topp 10 kanaler, rangordnade efter antal “rekommendationer” Chaslot program har upptäckts.

  1. Alex Jones Channel
  2. Fox News
  3. DONALD TRUMP TAL-OCH PRESSTRÄFF
  4. De Unga Turkarna
  5. MSNBC
  6. CBS News
  7. TheRichest
  8. Nästa News Network
  9. CNN
  10. Höger Sida Som Sänder Nätverk

Valtal

Vi sökte igenom hela databasen för att identifiera videor i full valtal av Trump och Clinton, deras makar och andra politiker. Var detta gjordes genom sökningar på ord som “yttrandefrihet” och “rally” i video-titlar, följt av en kontroll, där så är möjligt, av innehållet. Här är en lista över videor av valtal som finns i databasen.

  1. Donald Trump (382 videoklipp)
  2. Barack Obama (42 videor)
  3. Mike Pence (18 videoklipp)
  4. Hillary Clinton (18 videoklipp)
  5. Melania Trump (12 videoklipp)
  6. Michelle Obama (10 filmer)
  7. Jöa Biden (42 videor)

Graphika analaysis

The Guardian delade hela databasen med Graphika, en kommersiell analytics företag som har spårat politisk desinformation kampanjer. Företaget sammanslagna databasen av YouTube-rekommenderade videoklipp med egna dataset av Twitter-nätverk som var aktiva under 2016 val.

Företaget upptäckte mer än 513,000 Twitter-konton hade twittrade länkar till minst en av de YouTube-rekommenderade videoklipp i sex månader fram till valet. Mer än 36 000 konton twittrat minst en av de videor 10 eller fler gånger. De mest aktiva 19 av dessa Twitter-konton hänvisas till videor mer än 1 000 gånger – bevis för automatiserad verksamhet.

“Under de månader som leder fram till valet, dessa filmer var klart draghjälp av en kraftig, ihållande social media kampanj som innebär tusentals konton som kontrolleras av politiska agenter, inklusive ett stort antal robotar,” sade John Kelly, Graphika: s verkställande direktör. “Den mest talrika och bästa-ansluten av dessa har Twitter-konton som stödjer President Trump’ s kampanj, men en mycket aktiv minoritet ingår konton fokuserade på konspirationsteorier, stöd för WikiLeaks, och officiella ryska butiker och påstådda desinformation källor.”

graphika analysis

Facebook

Twitter

Pinterest

YT Förstärkning Foto: Graphika

Kelly sedan tittade specifikt på vilka Twitter-nätverk driver på filmer som vi hade kategoriseras som fördelaktigt att Övertrumfa eller Clinton. “Pro-Trump videor drevs av ett stort nätverk av pro-Trump konton, med hjälp av ett mindre nätverk av hängivna pro-Bernie och progressiva konton. Att koppla ihop dessa två grupper och också driver pro-Trump innehållet var en blandning av konspiration-orienterade, ‘Truther”, och pro-Ryssland-konton,” Kelly avslutade. “Pro-Clinton videor drevs av ett mycket mindre nätverk av konton som nu identifierar sig som en “stå emot” – rörelsen. Långt fler av de länkar främja Trump innehåll var upprepa citat av samma konton, som är karakteristisk för automatisk förstärkning.”

Äntligen, som vi delade med Graphika en delmängd av ett dussin filmer som båda rekommenderas av YouTube, enligt ovanstående statistik, och särskilt flagranta exempel på falska eller splittrande anti-Clinton video-innehåll. Kelly sade att han fann “en omisskännliga mönster av samordnade sociala medier förstärkning” med denna del videor.

Tweets främja dem nästan alltid började efter midnatt dagen av video utseende på YouTube, vanligtvis mellan 1 och 4am EDT, en udda tid på natten för OSS medborgare att vara först märker videor. Den ihållande fortsatte att twittra “på en mer eller mindre jämn takt” under flera dagar eller veckor fram till valdagen, sade Kelly, när den plötsligt stannade. Som skulle tyda på att “klara bevis för samordnad manipulation”, Kelly läggas till.

YouTube-uttalande

YouTube lämnat följande svar till denna forskning:

“Vi har stor respekt för den Vårdnadshavare som nyheter outlet och institution. Vi håller inte alls med, men med den metod, data och, viktigast av allt, de slutsatser som dras i sin forskning,” en YouTube-talesman sade. “Provet på 8 000 videor de utvärderade inte måla upp en rättvisande bild av vilka videoklipp som rekommenderades på YouTube för drygt ett år sedan i upptakten till det AMERIKANSKA presidentvalet.”

“Vår sök-och rekommendation system spegla vad människor söker efter, antalet videor som finns tillgängliga, och de videor som människor väljer att se på YouTube,” fortsatte. “Det är inte en inriktning mot någon särskild kandidat, som är en återspegling av tittarens intresse.” Talesmannen tillade: “Vår enda slutsats är att Väktare försöker flika forskning, data, och deras felaktiga slutsatser i en gemensam berättelse om teknikens roll i förra årets val. Verkligheten av hur vårt system fungerar, men helt enkelt inte har stöd för denna premiss.”

I förra veckan framkom det att syrien skrev till Google kräver att få veta var företaget gör för att förhindra att “baktala invasion” av YouTube ‘ s rekommendation algoritm – som den högst rankade Demokrat i utskottet hade varnat var “särskilt mottagliga för främmande inflytande”. Följande dag, YouTube ombedd att uppdatera sitt uttalande.

“Hela 2017 våra team arbetat med att förbättra hur YouTube hanterar frågor och rekommendationer relaterade till nyheter. Vi gjorde algoritmisk förändringar för att bättre yta klart-märkt auktoritativa nyhetskällor i sökresultaten, särskilt kring nyheter evenemang,” sades det i uttalandet. “Vi skapade en ‘Breaking News’ hylla på Youtubes startsida som serverar upp innehåll från tillförlitliga nyheter källor. När människor går in nyheter-relaterade sökfrågor kan vi tydligt visa en “Top News” – hyllan i sina sökresultat med relevanta YouTube-innehåll från auktoritativa nyhetskällor.”

Det fortsatte: “Vi tar också en hård attityd på videor som inte uppenbart bryter mot våra policyer men innehåller inflammatoriska religiösa eller makt innehåll. Dessa filmer är placerad bakom en varning interstitiell, är inte penningmässiga, rekommenderade eller berättigade till kommentarer eller användaren påskrifter.”

“Vi uppskattar Guardian: s arbete med att lysa på den med en spotlight på denna utmanande fråga,” YouTube lagt till. “Vi vet att det finns mer att göra här och vi ser fram emot att göra fler uttalanden under de kommande månaderna.”

  • Läs hela artikeln: hur YouTube algoritm förvränger sanningen

Ovanstående forskning genomfördes av Erin McCormick, ett Berkeley-baserat undersökande reporter och före detta San Francisco Chronicle databas redaktör, och Paul Lewis, the Guardian ‘ s west coast byråchef och förre Washington-korrespondent.


Date:

by