MIT Technology Review fann att två AI-anställningsverktyg gav goda betyg för en sökande som läste en tyskspråkig Wikipedia-sida istället för att svara på frågor.
Tom McKay för 2 timmar sedan6SaveAlerts
 calc (100vw - 32px), (max-width: 37.31em) calc (100vw - 32px), (min-width: 37.37em) och (max-width: 49.94em) calc (100vw - 32px), (min-bredd: 50em) och (max-bredd: 63.69em) 800px, (min-bredd: 63.75em) och (max-bredd: 85.19em) beräknat (66.5vw - 32px), 800px )
AI-driven programvara för jobbintervjuer kan vara lika skitsnack som du misstänker, enligt tester som körs av MIT Technology Review: s podcast “In Machines We Trust” som fann att två företags programvara gav bra betyg till någon som svarade på en engelskspråkig intervju på tyska.
Annons
Företag som annonserar för programvaruverktyg som drivs av maskininlärning för screening av arbetssökande lovar effektivitet, effektivitet, rättvisa och eliminering av luriga beslutsfattande av människor. I vissa fall är allt programvaran läs CV eller försäkringsbrev för att snabbt avgöra om en sökandes arbetserfarenhet verkar vara rätt för jobbet. Men ett växande antal verktyg kräver att arbetssökande navigerar i en helvete serie av uppgifter innan de ens kommer nära en telefonintervju. Dessa kan sträcka sig från att ha konversationer med en chatbot till att skicka till röst-/ansiktsigenkänning och prediktiva analysalgoritmer som bedömer dem baserat på deras beteende, ton och utseende. Systemen kan spara personal personal tid, men det finns stor skepsis att AI-verktyg är nästan lika bra (eller opartiska) vid screening av sökande som deras utvecklare hävdar.
Testerna från Technology Review lägger större vikt vid dessa problem. De testade två AI-rekryteringsverktyg: MyInterview och Curious Thing. MyInterview rankar sökande baserat på observerade drag som är associerade med Big Five Personality Test – öppenhet, samvetsgrannhet, extroversion, smidighet och emotionell stabilitet. (Medan de stora fem används i stor utsträckning inom psykiatrin rapporterade Scientific American att experter säger att dess användning i kommersiella applikationer i bästa fall är ojämn och ofta flörtar med pseudovetenskap.) Curious Thing mäter också andra personlighetsdrag som “ödmjukhet och motståndskraft.” Båda testerna erbjuder sedan bedömningar, där MyInterview jämför dessa poäng med de egenskaper som anställningschefer säger att de föredrar.
För att testa dessa system skapade Technology Review falska jobbannonser för en kontorsadministratör/forskare på båda apparna och konstruerade falska kandidater som de trodde skulle passa rollen. Webbplatsen skrev:
På MyInterview valde vi egenskaper som uppmärksamhet på detaljer och rankade dem efter viktnivå. Vi valde också intervjufrågor som visas på skärmen medan kandidaten spelar in videosvar. På Curious Thing valde vi egenskaper som ödmjukhet, anpassningsförmåga och motståndskraft.
En av oss, [Hilke Schellmann], ansökte sedan om tjänsten och slutförde intervjuer för rollen på både MyInterview och Curious Thing.
G/O Media kan få en uppdrag Apple AirPods Max $ 489 på Amazon
På Curious Thing avslutade Schellmann en videointervju och fick 8,5 av 9 för engelsk kompetens. Men när hon tog provet igen och läste svar direkt från den tyskspråkiga Wikipedia-sidan om psykometri, gav det en poäng på 6 av 9. Enligt Technology Review tog hon sedan testet igen med samma tillvägagångssätt och fick 6 av 9 igen. MyInterview presterade på samma sätt och rankade Schellmanns tyskspråkiga videointervju till en matchning på 73% för jobbet (placerade henne i den övre halvan av de sökande som rekommenderas av webbplatsen).
MyInterview transkriberade också Schellmanns svar på videointervjun, som Technology Review skrev, var rent gibberish:
Så fukt är skrivbordet. Sociologi, stryker det? Gruvad nematod anpassas. Säker plats, mesons första halvan gamma deras Fortunes i för IMD och faktum långt fram för att passera till Eurasien och Z just detta mesons.
Annons
Medan HR-personal kan fånga det förvrängda transkriptet är det av uppenbara skäl. Om en AI inte ens kan urskilja att en arbetssökande inte talar på engelska, kan man bara spekulera i hur den kan hantera en sökande som talar engelska med en tung accent, eller hur det här får personlighetsdrag från svaren. . Andra system som förlitar sig på ännu mer tvivelaktiga mätvärden, som ansiktsuttrycksanalys, kan vara mindre pålitliga. (Ett av de företag som använde uttrycksanalys för att bestämma kognitiv förmåga, HireVue, slutade göra det under det senaste året efter att Federal Trade Commission anklagade det för ”vilseledande eller orättvisa” affärsmetoder.) Som Technology Review noterade, de flesta företag som bygger sådana verktyg behandlar kunskap om hur de arbetar tekniskt som affärshemligheter, vilket betyder att de är extremt svåra att externt veterinär.
Även textbaserade system är benägna att bias och tvivelaktiga resultat. LinkedIn var tvungen att se över sin algoritm som matchade jobbkandidater med möjligheter, och Amazon skulle enligt uppgift släppa en internt utvecklad programvara för återupptagningsgranskning, efter att i båda fallen konstaterat att datorer fortsatte att diskriminera kvinnor. I fallet med Amazon rekommenderade ibland programvaran slumpmässigt okvalificerade sökande.
Annons
Clayton Donnelly, en industri- och organisationspsykolog som arbetar med MyInterview, berättade för Technology Review att webbplatsen fick Schellmanns personlighetsresultat på intonationen av hennes röst. Rice University-professor i industriell organisationspsykiatri Fred Oswald sa till webbplatsen som var en BS-mätning: ”Vi kan verkligen inte använda intonation som data för anställning. Det verkar bara inte rättvist eller pålitligt eller giltigt. ”
Oswald tillade att “personligheten är svår att skära ut i denna öppna mening”, med hänvisning till den löst strukturerade videointervjun, medan psykologiska tester kräver “hur frågorna ställs för att vara mer strukturerade och standardiserade.” Men han berättade för Technology Review att han inte trodde att nuvarande system hade samlat in data för att fatta dessa beslut exakt eller till och med att de hade en tillförlitlig metod för att samla in den från första början. 77igqf-0 bOfvBY “>Sarah Myers West, som arbetar med de sociala konsekvenserna av AI vid New York Universitys AI Now Institute, sa till Chicago Tribune tidigare i år, ”Jag tror inte att vetenskapen verkligen stöder tanken att talmönster skulle vara en meningsfull bedömning av någons personlighet.” Ett exempel, sade hon, är att AI-historiker har presterat sämre när de försöker förstå kvinnors röster.
Han Xu, grundare och chef Technology Officer för Curious Thing, berättade för Technology Review att detta faktiskt var ett fantastiskt resultat eftersom det “är första gången som vårt system testas på tyska, därför en mycket värdefull datapunkt för oss att undersöka och se om det avslöjar något i vårt system. ”
Annons
[MIT Technology Review]
Tom McKayPostsEmailTwitter
Tom täcker teknik, politik, online-extremism och konstigheter för Gizmodo. Hans arbete har dykt upp på Mic, Yahoo News, AOL, HuffPo, Business Insider, Snoop Doggs Merry Jane, Wonkette och The Daily Banter.