Du vil straks vide, at du porno. Og du vil forstå computeren?

I begyndelsen af sidste måned, Tumblr meddelte, at det ville forbyde porno. Når en ny politik i forhold til indhold trådte i kraft, efter cirka to uger — December 17 — det er blevet klart, at der vil være problemer. Efter implementering af kunstig intelligens-system, som blev perebanit alle porno på hjemmesiden, er det fejlagtigt markeret uskyldig indlæg i 455,4 millioner blogs på hjemmesiden, blandt 168,2 mia indlæg: vaser, hekse, fisk, og alt det jazz.

Pornografi for kunstig intelligens

Selv om det er uklart, hvad den automatiske filter, der bruges Tumblr eller har oprettet din egen virksomhed ikke har reageret på henvendelser om dette emne — det er indlysende, at det sociale netværk var fanget mellem sin egen politik og teknologi. For eksempel, den inkonsekvente placering af anlægget i forhold til “kvinder, der viser brystvorter” og kunstnerisk nøgenhed, for eksempel ført til, at kontekstuelle løsninger, der viser, at selv Tumblr ikke ved, hvad de skal forbuddet mod platformen. Som en del af virksomheden til at bestemme, hvad det mener, uanstændigt?

For det første, at blokere for risikabelt indhold er vanskeligt, fordi i første omgang er det vanskeligt at afgøre, hvad det er. Definitionen af pornografi — en bjørn fælde, som er over hundrede år, og i 1896 Usa først vedtaget love, der regulerer uanstændighed. I 1964 i Jacobellis mod Ohio, med hensyn til om en Ohio for at forbyde screening af Louis Malle, Højesteret, der er udstedt den måske mest berømte definition af hårde pornografi i dag: “jeg skal ikke i dag forsøg på yderligere at definere denne form for materiale, der, som jeg forstår det, vil blive medtaget i den følgende beskrivelse, og måske jeg aldrig kunne lykkes i forståelig måde at gøre det på,” sagde dommer Stewart. “Men jeg ved, hvad det er, når du ser film, der er forbundet med denne sag, er det ikke”.

Machine learning-algoritmer samme problem. Det er det problem, de forsøger at løse Brian Delorge, CEO Picnix, en virksomhed, der sælger en specialiseret kunstig intelligens-teknologien. Et af deres produkter — Iris — er et program på klient-siden, som bruges til at opdage pornografi er at “hjælpe mennesker”, siger DeLong, “der ikke vil have porno i mit liv.” Han bemærkede, at et andet problem med porno er, at der kunne være noget, en masse forskellige ting og billeder, der ikke er pornografisk, kan have en lignende elementer. Billedet af den part, på stranden kan være blokeret, ikke fordi det har mere hud, end de billeder, på kontoret, men fordi det er på kant. “Det er derfor, det er meget svært at træne billedet anerkendelse algoritme alle på én gang,” siger DeLong. “Når den definition bliver svært for folk computer også er i vanskeligheder”. Hvis folk ikke kan blive enige om, hvad der er porno og hvad der ikke er, kan computeren på alle håber at kende forskel?

For at lære AI til at opdage porno, den første ting du skal gøre er at fodre ham porno. En masse af pornografi. Hvor kan jeg få det? Nå, den første ting folk gøre, er at downloade en masse VIDOS fra Pornhub, XVideos, siger Dan Shapiro, stifter af startup Lemay.ai, der skaber filtre AI for deres kunder. “Det er en af de grå områder af juridisk karakter — for eksempel, hvis du studerer på andres indhold, uanset om det tilhører dig?”.

Efter programmører er at hente tonsvis af porno, er de klip fra video-optagelser, at pornografi er ikke, at sørge for, at de optagelser, vil ikke føre til blokering pizza. Platform betale folk, for det meste, uden for de Forenede Stater, til mærkning af sådant indhold; arbejde i lavtlønnede og kedeligt som at indtaste en “captcha”. De sidder bare der og sige: er det porno, det er dette. Filteret har, fordi alle porno går med mærkningen. Læring er bedre, hvis at bruge ikke bare billeder, men stort sample data.

“Ofte har ikke blot filtrere porno, men snarere er forbundet materiale,” Shapiro siger. “Som falske profiler med billede, piger og telefonen.” Han henviser til sexarbejdere i søgning af kunder, men det kan være noget ikke helt lovligt. “Det er ikke porno, men denne form for ting du ikke ønsker at se på platformen?”. God automatiseret moderator er uddannet på millioner — hvis ikke millioner — eksempler på indhold, og derfor kan spare en masse mand-timer.

“Du kan sammenligne det med forskellen mellem et barn og en voksen,” siger Matt Zeiler, CEO og grundlægger af Clarifai, en start inden for computer vision, som gennemfører filtrering af billeder til erhvervskunder. “Jeg kan fortælle dig for sikker, — for et par måneder siden havde vi et barn. De kender intet til verden, for dem, alt er nyt.” Du er nødt til at vise barnet (algoritme), en masse ting, at det er noget lært. “Millioner og atter millioner af eksempler. Men som voksne — når vi har lavet, så en masse af kontekst om verden og forstår, hvordan det virker, vi kan lære noget nyt fra blot to eksempler.” (Ja, til at undervise AI til at filtrere indhold, — det er ligesom, der viser et barn, en masse porno). I dag, har virksomheder som Clarifai er i hastig vækst. De har en god database af den verden, de kan skelne hundene fra katte klædt på fra nøgen. Selskab Celera bruger sin model for uddannelse af nye algoritmer for deres kunder — fordi den oprindelige model har behandlet en masse data, en personlig udgave, vil det kræve et nyt datasæt at arbejde med.

Men algoritmen er svært at gøre det rigtige. Med indhold, der er naturligvis pornografisk, det klarer sig godt, men at klassificeringen kan fejlagtigt markere offentliggørelsen af undertøj som tabu, fordi billedet er mere hud end, at sige, den kontor. (Bikini og undertøj, ifølge Celera, meget svært). Det betyder, at dem, der er involveret i mærkningen bør fokusere på disse ekstreme tilfælde i sit arbejde, og give prioritet til det faktum, at det er vanskeligt at klassificere modeller.

Og hvad er det sværeste?

“Anime porno,” siger Zeiler. “Den første version af vores detektor nøgenhed er ikke vant til at lære tegnefilm pornografi”. Mange gange AI og rydde op, fordi jeg ikke genkende hentai. “Efter at have arbejdet på dette for en kunde, har vi gennemført en masse af sine data til modellen, og markant forbedret nøjagtigheden af filter tegneserie billeder, bevarer nøjagtigheden af virkelige billeder,” siger Zeiler.

Teknologi, som er oplært til at sniffe ud porno, det kan bruges på andre ting. Den teknologi, der ligger til grund for dette system er overraskende fleksibel. Det er mere end animationsfilm Bryster. Puslespil fra Alfabetet, for eksempel, er i vid udstrækning anvendes som en automatisk moderator anmeldelse i avisen. Denne software fungerer på samme måde som den klassificering af billeder, bortset fra det faktum, at sorterer efter toksicitet, ikke nøgenhed. (Toksicitet i en tekst anmeldelse til at bestemme så svært som pornografi i billeder). Facebook bruger en lignende automatisk filtrering til at opdage selvmordstanker budskaber og indhold, der er forbundet med terrorisme, og at han prøvede at bruge denne teknologi til at detektere falske nyheder på sit massive platform.

Det hele er stadig afhængig af menneskelig overvågning; vi bedre kan klare tvetydighed og uklar sammenhæng. Zeiler siger, at han ikke tror, at hans produkt, har berøvet nogen af arbejde. Det løser skalering problem af Internettet. Folk stadig vil træne AI, sortering og tagging af indhold, således at AI kunne se forskel.

Dette er fremtiden for moderation: individuelle, nøglefærdige løsninger, der leveres af virksomheder, der gør deres virksomhed på træning af mere avancerede kriterier for klassificering mere data. Lige så Stribe, og Pladsen har at tilbyde færdige betaling løsning for virksomheder, der ikke ønsker at håndtere dem alle uafhængigt, den nystartede som Clarifai, Picnix og Lemay.ai vil give online moderation.

Dan Shapiro fra Lemay.ai lovende. “Som med enhver ny teknologi, det er stadig i færd med at opfindelsen. Så jeg tror ikke, vi taber i tilfælde af en fiasko”. Men kan AI nogensinde handle selvstændigt uden opsyn af en mand? Det er ikke klart. “Der er ingen lille mand i snuff-box, som filtre for hvert skud,” siger han. “Vi er nødt til at få data fra alle steder, for at træne algoritmen”.

Zeiler, på den anden side, tænker en dag, kunstig intelligens vil aftage alt på deres egne. I sidste ende, at antallet af indgreb på en del af de mennesker vil blive reduceret til nul eller ubetydelig indsats. Efterhånden indsats af den menneskelige bliver til det faktum, at AI nu ikke kan gøre, som en diskussion på højt niveau identitet — kun, at mennesker har.

Anerkendelse af pornografi er en del af det. Identifikation er en relativt triviel opgave for mennesker, men meget sværere at lære en algoritme til at genkende nuancer. Bestemmelse af den tærskel, når filteret mærker det billede, som pornografisk eller ikke pornografisk, er også udfordrende, dels matematisk.

Kunstig intelligens er en ufuldkommen spejl af, hvordan vi ser verden, ligesom pornografi er en afspejling af, hvad der sker mellem mennesker, når de er alene. Det har nogle sandheden, men det fulde billede — nr.

Glem ikke at subscribe til vores kanal med nyheder.

Date:

Feb 1, 2019

–

by

admin