En gav vår kandidat en hög poäng för kunskaper i engelska när hon bara talade på tyska.
av
7 juli 2021 
Efter mer än ett år av covid-19-pandemin söker miljontals människor arbete i USA. AI-driven intervjuprogram påstår sig hjälpa arbetsgivare att söka igenom applikationer för att hitta de bästa personerna för jobbet. Företag som specialiserat sig på denna teknik rapporterade en kraftig ökning av affärer under pandemin.
Men när efterfrågan på dessa tekniker ökar, ökar också frågor om deras noggrannhet och tillförlitlighet. I det senaste avsnittet av MIT Technology Review's podcast “In Machines We Trust” testade vi programvara från två företag som specialiserat sig på AI-jobbintervjuer, MyInterview och Curious Thing. Och vi hittade variationer i förutsägelser och jobbmatchningspoäng som väcker oro för exakt vad dessa algoritmer utvärderar.
Lär känna dig
MyInterview mäter egenskaper som beaktas i Big Five Personality Test, en psykometrisk utvärdering som ofta används i anställningsprocessen. Dessa egenskaper inkluderar öppenhet, samvetsgrannhet, extroversion, behaglighet och emotionell stabilitet. Curious Thing mäter också personlighetsrelaterade drag, men i stället för Big Five utvärderas kandidater på andra mått, som ödmjukhet och motståndskraft.
Denna skärmdump visar vår kandidats matchpoäng och personlighetsanalys på MyInterview efter att ha svarat på alla intervjufrågor på tyska istället för engelska.HILKE SCHELLMANN Algoritmerna analyserar kandidaternas svar för att bestämma personlighetsdrag. MyInterview sammanställer också poäng som visar hur nära en kandidat matchar de egenskaper som identifierats av anställningschefer som idealiska för positionen.
För att slutföra våra tester installerade vi först programvaran. Vi laddade upp en falsk jobbannons för en kontorsadministratör/forskare på både MyInterview och Curious Thing. Sedan konstruerade vi vår idealiska kandidat genom att välja personlighetsrelaterade egenskaper när systemet uppmanades.
På MyInterview valde vi egenskaper som uppmärksamhet på detaljer och rankade dem efter viktnivå. Vi valde också intervjufrågor som visas på skärmen medan kandidaten spelar in videosvar. På Curious Thing valde vi egenskaper som ödmjukhet, anpassningsförmåga och motståndskraft.
En av oss, Hilke, ansökte sedan om tjänsten och slutförde intervjuer för rollen i både MyInterview och Curious Thing.
Vår kandidat avslutade en telefonintervju med Curious Thing. Hon gjorde först en vanlig anställningsintervju och fick 8,5 av 9 för engelsk kompetens. I ett andra försök ställde den automatiserade intervjuaren samma frågor, och hon svarade på var och en genom att läsa Wikipedia-posten för psykometri på tyska.
Ändå tilldelade Curious Thing en 6 av 9 för engelsk kompetens. Hon slutförde intervjun igen och fick samma poäng.
En skärmdump visar vår kandidats engelska kompetenspoäng i Curious Things programvara efter att hon svarat på alla frågor på tyska.HILKE SCHELLMANN Vår kandidat vände sig till MyInterview och upprepade experimentet. Hon läste samma Wikipedia-post högt på tyska. Algoritmen returnerade inte bara en personlighetsbedömning utan förutspådde också att vår kandidat skulle vara en 73% -match för det falska jobbet, vilket placerade henne i den övre halvan av alla de sökande vi hade bett om att ansöka.
MyInterview ger anställningschefer ett transkript av sina intervjuer. När vi inspekterade vår kandidats transkription fann vi att systemet tolkade hennes tyska ord som engelska ord. Men transkriptet gav ingen mening. De första raderna, som motsvarar svaret ovan, läser:
“Så luftfuktighet är ett skrivbord. Det är sociologi, stryker det? Gruvmaterial nematoder anpassar sig. Säker plats, mesons första halvan gamma deras Fortunes i för IMD och faktiskt långt för att passera till Eurasien och Z just detta mesons. ”
Omjämnbart{0<<<<
Istället för att få vår kandidat på innehållet i hennes svar drog algoritmen personlighetsdrag från hennes röst, säger Clayton Donnelly, en industri- och organisationspsykolog som arbetar med MyInterview.
Men intonation är inte en pålitlig indikator på personlighetsdrag, säger Fred Oswald, professor i industriell organisationspsykologi vid Rice University. “Vi kan verkligen inte använda intonation som data för anställning”, säger han. “Det verkar bara inte rättvist eller pålitligt eller giltigt.”
Att använda öppna frågor för att bestämma personlighetsdrag utgör också betydande utmaningar, även när – eller kanske särskilt när – processen är automatiserad. Det är därför många personlighetstester, som de fem stora, ger människor valmöjligheter att välja mellan.
“Poängen är att personligheten är svår att skära ut i denna öppna mening,” Oswald säger. ”Det finns möjligheter för AI eller algoritmer och hur frågorna ställs för att vara mer strukturerade och standardiserade. Men jag tror inte att vi nödvändigtvis är där när det gäller data, när det gäller designen som ger oss informationen. ”
Medgrundaren och Chief Technology Officer of Curious Thing, Han Xu, svarade till våra resultat i ett e-postmeddelande och säger: “Det här är första gången som vårt system testas på tyska, därför en extremt värdefull datapunkt för oss att undersöka och se om det avslöjar något i vårt system.”
