Du kommer omedelbart att känna att du porr. Och du kommer att förstå dator?

I början av förra månaden, Tumblr meddelade att man skulle förbjuda porr. När en ny politik i förhållande till innehåll trädde i kraft, efter ca två veckor — 17 December — det har blivit uppenbart att det kommer att bli problem. Efter driftsättning av artificiell intelligens, som var perebanit alla porr på hemsidan, det felaktigt flaggade oskyldiga inlägg i 455,4 miljoner bloggar på hemsidan bland 168,2 miljarder inlägg: vaser, häxor, fisk, och allt som jazz.

Pornografi för artificiell intelligens

Även om det är oklart vad det automatiska filter som används Tumblr eller har skapat ditt eget företag har inte svarat på frågor om detta ämne — det är uppenbart att det sociala nätverket var fast mellan sin egen politik och teknik. Till exempel, den inkonsekventa position platsen är i förhållande till “kvinnor visar bröstvårtor” och konstnärlig nakenhet, till exempel, ledde till kontextuella lösningar, vilket visar att även Tumblr vet inte vad jag ska förbudet mot plattformen. Som en del av företaget för att avgöra vad de anser vara stötande?

För det första, att blockera riskfyllda innehåll är svårt, eftersom det i början är svårt att avgöra vad det är. Definitionen av obscenitet — en bear trap, som är över hundra år 1896 Usa först stiftat lagar som reglerar obscenitet. 1964 i Jacobellis mot Ohio om ett Ohio för att förbjuda screening av Louis Malle, Högsta domstolen utfärdade kanske den mest kända definitionen av hård pornografi i dag: “jag skall inte idag ytterligare försök att definiera denna typ av material, vilket, som jag förstår det, kommer att ingå i stenografi beskrivning, och jag kanske aldrig skulle kunna lyckas i begripligt att göra det,” sade domaren Stewart. “Men jag vet vad det är när du ser filmen i samband med detta fall är det inte”.

Den maskinlärande algoritmer samma problem. Detta är det problem som man försöker lösa Brian Delorge, VD Picnix, ett företag som säljer en specialiserad artificiell intelligens. En av deras produkter — Iris — är ett program på klientsidan, som används för att upptäcka pornografi är att “hjälpa människor”, säger DeLong, “som inte vill se porr i mitt liv.” Han noterade att ett annat problem med porr är att det skulle kunna vara något, en massa olika saker och bilder som inte är pornografiskt, kan ha en liknande poster. Bilden av partiet på stranden kan blockeras inte för att det har mer hud än bilderna på kontoret, men eftersom det är på den kanten. “Det är därför det är mycket svårt att träna bilden erkännande algoritm alla på en gång, säger DeLong. “När definitionen blir svårt för människor datorn står också inför stora svårigheter”. Om människor inte kan komma överens om vad som är porr och vad som inte gör det kan datorn alls hoppas att veta skillnaden?

För att lära AI för att upptäcka porr, det första du behöver göra är att mata honom porr. En hel del av pornografi. Var kan jag få det? Tja, det första folk gör är att ladda ner en massa VIDOS från Pornhub, XVideos, säger Dan Shapiro, grundare av startup Lemay.ai som skapar filter AI för sina kunder. “Det är en av de grå områden som är av juridisk karaktär, till exempel om du studerar på innehållet av andra, oavsett om det tillhör du?”.

Efter programmerare är att ladda ner massor av porr, de klipp från de videofilmer som pornografi är inte, för att se till att filmen inte kommer att leda till blockering pizza. Plattform betala människor, för det mesta, även utanför Usa, för märkning av sådant innehåll; arbeta i lågavlönade och tråkigt som att skriva en “captcha”. De bara sitter där och säger: är det porr, det är det. Filtret har, eftersom alla porr går med märkning. Lärande är bättre om att använda inte bara bilder, men stort urval av data.

“Ofta har inte bara filtrera porr, utan snarare tillhörande material,” Shapiro säger. “Som falska profiler med foto, flickor och telefonen.” Han hänvisar till sexarbetare i jakt på kunder, men det kan vara något som inte är helt lagligt. “Det är inte porr, men denna typ av sak du inte vill se på plattformen?”. Bra automatiserade moderator är utbildade för miljoner om inte tiotals miljoner — exempel på innehåll, och kan därför spara en hel del arbetstimmar.

“Man kan jämföra det med skillnaden mellan ett barn och en vuxen, säger Matt Zeiler, VD och grundare av Clarifai, en start i området datorseende, som genomför filtrering av bilder för företagskunder. “Jag kan berätta för säker — för ett par månader sedan vi hade ett barn. De vet ingenting om världen, för dem är allting nytt.” Du måste visa barnet (algoritm) för en massa saker, att det är något man lärt sig. “Miljontals exempel. Men som vuxna — när vi har skapat så många sammanhang om världen och förstå hur det fungerar kan vi lära oss något nytt från bara två exempel.” (Ja, att lära AI för att filtrera innehåll för vuxna — det är som visar ett barn en massa porr). Idag, företag som Clarifai växer snabbt. De har en bra databas över världen, de kan skilja hundar från katter klädd från naken. Företaget Celera använder sin modell för utbildning av nya algoritmer för sina kunder — eftersom den ursprungliga modellen har bearbetat en hel del data, en personlig version kommer att kräva ett nytt dataset att arbeta med.

Men algoritmen är svårt att göra det rätt. Med innehåll att det är uppenbart pornografiskt, den hanterar bra, men klassificerare felaktigt kan markera tillkännagivandet av underkläder som tabu, eftersom bilden är mer hud än, säg, kontor. (Bikini och underkläder, enligt Celera, mycket svårt). Detta innebär att de som deltar i märkningen bör fokusera på dessa extrema fall i sitt arbete, där prioritet ges till det faktum att det är svårt att klassificera modeller.

Och vad är svårast?

“Anime porr, säger kristin Zeiler. “Den första versionen av vår detektor nakenhet är inte använts för att lära tecknad pornografi”. Många gånger AI mässar upp eftersom jag inte kände igen hentai. “Efter att ha arbetat på detta för en kund, har vi genomfört en hel del av sina data till modellen och avsevärt förbättrat precisionen av filter tecknade bilder, behålla riktigheten av riktiga foton, säger kristin Zeiler.

Tekniken som lärs ut för att vädra ut porr, det kan användas på andra saker. Tekniken bakom detta system är förvånansvärt flexibel. Det är mer än anime Bröst. Pussel från Alfabetet, till exempel, används ofta som en automatisk moderator recension i tidningen. Denna programvara fungerar på samma sätt till klassificeringen av bilder, med undantag för det faktum att typer av toxicitet, inte nakenhet. (Toxicitet i en text granskning för att avgöra så svårt som pornografi på bilderna). Facebook använder en liknande automatisk filtrering för att identifiera självmordsnära meddelanden och innehåll i samband med terrorism, och han försökte att använda denna teknik för att upptäcka falska nyheter på sin massiva plattform.

Det hela ändå beror på mänsklig övervakning, vi klarar sig bättre med oklarhet och mångtydiga sammanhang. Kristin Zeiler säger att han inte tror att hans produkt har berövat någon av arbete. Det löser skalning problemet med Internet. Att folk fortfarande kommer att träna AI, sortering och märkning innehåll så att AI kan avgöra skillnaden.

Detta är framtiden för moderering: individ, nyckelfärdiga lösningar som tillhandahålls av företag som gör sina affärer på utbildning av mer sofistikerade klassificerare mer data. Precis som Rand och Torg har att erbjuda färdiga betalning lösning för företag som inte vill hantera dem oberoende av varandra, startups som Clarifai, Picnix och Lemay.ai kommer att ge online måtta.

Dan Shapiro från Lemay.ai hoppfull. “Som med all ny teknik, det är fortfarande i processen av uppfinningen. Så jag tror inte att vi förlorar i händelse av misslyckande”. Men kan AI någonsin agera självständigt utan tillsyn av en man? Det är inte klart. “Det är ingen liten man i snuff-box, som filtrerar varje skott, säger han. “Vi behöver för att få data från överallt, för att träna algoritm”.

Kristin Zeiler, å andra sidan, tycker att en dag artificiell intelligens kommer måttlig allt på egen hand. I slutändan är det antalet ingrepp på en del av de människor reduceras till noll eller obetydlig ansträngning. Gradvis insatser för mänskliga kommer att förvandlas till det faktum att AI nu inte kan göra, som en diskussion på hög nivå identitet — bara att folk har.

Erkännande av pornografi är en del av det. Identifiering är en relativt trivial uppgift för människor, men mycket svårare att lära en algoritm för att känna igen nyanserna. Bestämning av tröskelvärdet, när filter markerar bilden som pornografiskt eller inte pornografiska, är också en utmaning, delvis matematiska.

Artificiell intelligens är ett perfekt spegel av hur vi ser på världen, precis som pornografi är en reflektion av vad som händer mellan människor när de är ensamma. Det har en viss sanning, men hela bilden — nr.

Glöm inte att prenumerera på vår kanal med nyheter.