KI-Software für Vorstellungsgespräche kann nicht einmal sagen, ob Sie Englisch sprechen, Tests finden

Das MIT Technology Review hat festgestellt, dass zwei KI-Hilfstools einem Bewerber, der eine deutschsprachige Wikipedia-Seite liest, anstatt Fragen zu beantworten, gute Noten geben.

tommckayTom McKayToday 2:10PM6SaveAlerts

Ein Job, der im Mai 2021 vor einem Geschäft in Annapolis, Maryland, veröffentlicht wurde.Eine Stelle, die im Mai 2021 vor einem Geschäft in Annapolis, Maryland, ausgeschrieben wurde.Foto: Jim Watson/AFP (Getty Images)

KI-gestützte Bewerbungsgesprächssoftware kann gerecht sein so Quatsch, wie Sie vermuten, laut Tests des Podcasts „In Machines We Trust“ des MIT Technology Review, der ergab, dass die Software zweier Unternehmen einer Person, die auf ein englischsprachiges Interview auf Deutsch antwortete, gute Noten gab.

Unternehmen, die auf maschinellem Lernen basierende Softwaretools für das Screening von Bewerbern bewerben, versprechen Effizienz, Effektivität, Fairness und die Eliminierung schlampiger Entscheidungen durch den Menschen. In einigen Fällen liest die Software lediglich Lebensläufe oder Anschreiben, um schnell festzustellen, ob die Berufserfahrung eines Bewerbers für die Stelle geeignet ist. Aber eine wachsende Zahl von Tools erfordert, dass Arbeitssuchende eine höllische Reihe von Aufgaben bewältigen müssen, bevor sie auch nur in die Nähe eines Telefoninterviews kommen. Diese können von Gesprächen mit einem Chatbot bis hin zur Übermittlung an Sprach-/Gesichtserkennungs- und prädiktive Analysealgorithmen reichen, die sie anhand ihres Verhaltens, Tons und Aussehens beurteilen. Auch wenn die Systeme den Mitarbeitern der Personalabteilung Zeit sparen könnten, besteht erhebliche Skepsis, dass KI-Tools bei der Überprüfung von Bewerbern annähernd so gut (oder unvoreingenommen) sind, wie ihre Entwickler behaupten.

Die Tests des Technology Review verleihen diesen Bedenken mehr Gewicht. Sie testeten zwei KI-Recruiting-Tools: MyInterview und Curious Thing. MyInterview stuft Bewerber nach beobachteten Merkmalen ein, die mit dem Big-Five-Persönlichkeitstest verbunden sind – Offenheit, Gewissenhaftigkeit, Extrovertiertheit, Verträglichkeit und emotionale Stabilität. (Während die Big Five in der Psychiatrie weit verbreitet sind, berichtet Scientific American, dass ihre Verwendung in kommerziellen Anwendungen bestenfalls zweifelhaft ist und oft mit Pseudowissenschaft flirtet.) Curious Thing misst auch andere Persönlichkeitsmerkmale wie „Demut und Belastbarkeit“. Beide Tests bieten dann Bewertungen, wobei MyInterview diese Ergebnisse mit den Eigenschaften vergleicht, die die Einstellungsmanager angeben, die sie bevorzugen.

Um diese Systeme zu testen, erstellte die Technology Review gefälschte Stellenausschreibungen für ein Büroadministrator/Forscher für beide Apps und konstruierte gefälschte Kandidaten, von denen sie glaubten, dass sie zu der Rolle passen würden. Die Website schrieb:

Auf MyInterview haben wir Merkmale wie die Liebe zum Detail ausgewählt und nach Wichtigkeit geordnet. Wir haben auch Interviewfragen ausgewählt, die auf dem Bildschirm angezeigt werden, während der Kandidat Videoantworten aufzeichnet. Bei Curious Thing haben wir Eigenschaften wie Bescheidenheit, Anpassungsfähigkeit und Belastbarkeit ausgewählt.

Eine von uns, [Hilke Schellmann], hat sich dann auf die Stelle beworben und Bewerbungsgespräche geführt die Rolle bei MyInterview und Curious Thing.

G/O Media kann eine Provision erhaltenApple AirPods Max Apple AirPods Max489 $bei Amazon

Auf Curious Thing hat Schellmann ein Videointerview abgeschlossen und erhielt 8,5 von 9 Punkten für Englischkenntnisse. Aber als sie den Test wiederholte und die Antworten direkt von der deutschsprachigen Wikipedia-Seite über Psychometrie las, gab er eine Punktzahl von 6 von 9 Punkten zurück. Laut Technology Review hat sie dann den Test mit dem gleichen Ansatz wiederholt und wieder eine 6 von 9 bekommen. MyInterview schnitt ähnlich ab und bewertete Schellmanns deutschsprachiges Videointerview mit 73 % für die Stelle (was sie in die obere Hälfte der von der Website empfohlenen Bewerber einordnet).

MyInterview transkribierte auch Schellmanns Antworten auf das Videointerview, das laut Technology Review reines Kauderwelsch sei:

Feuchtigkeit ist also ein Schlag-up. Soziologie, bügelt sie? Abgebautes Material Nematode adaptieren. Sicherer Standort, Mesonen der ersten Hälfte des Gammas, die ihr Vermögen für IMD haben und lange nach Eurasien und Z diesen besonderen Standort-Mesonen weitergeben.

Während HR-Mitarbeiter das verstümmelte Transkript erwischen könnten, ist dies aus offensichtlichen Gründen beunruhigend. Wenn eine KI nicht einmal unterscheiden kann, dass ein Bewerber kein Englisch spricht, kann man nur spekulieren, wie sie mit einem akzentschweren Bewerber umgehen könnte oder wie sie aus den Antworten Persönlichkeitsmerkmale ableitet . Andere Systeme, die sich auf noch zweifelhaftere Metriken verlassen, wie die Mimikanalyse, sind möglicherweise weniger vertrauenswürdig. (Eine der Firmen, die Ausdrucksanalysen zur Bestimmung der kognitiven Fähigkeiten einsetzten, HireVue, hat dies im letzten Jahr eingestellt, nachdem die Federal Trade Commission ihr „betrügerische oder unfaire“ Geschäftspraktiken vorgeworfen hatte.) Wie der Technology Review feststellte, haben die meisten Unternehmen, die bauen solche Tools behandeln das Wissen über ihre technische Funktionsweise als Geschäftsgeheimnisse, was bedeutet, dass sie von außen nur sehr schwer überprüft werden können.

Selbst textbasierte Systeme sind anfällig für Verzerrungen und fragwürdige Ergebnisse. LinkedIn war gezwungen, seinen Algorithmus zu überarbeiten, der Jobkandidaten mit Möglichkeiten zuordnete, und Amazon hat Berichten zufolge eine intern entwickelte Software zur Überprüfung von Lebensläufen aufgegeben, nachdem in beiden Fällen festgestellt wurde, dass Computer weiterhin Frauen diskriminieren. Im Fall von Amazon hat die Software manchmal wahllos unqualifizierte Bewerber empfohlen.

Clayton Donnelly, ein Arbeits- und Organisationspsychologe, der mit MyInterview zusammenarbeitet, sagte der Technology Review, dass die Website Schellmanns Persönlichkeitsergebnisse auf die Intonation ihrer Stimme bewertet habe. Fred Oswald, Professor für Industrie- und Organisationspsychiatrie an der Rice University, sagte der Website, die eine BS-Metrik sei: „Wir können die Intonation wirklich nicht als Daten für die Einstellung verwenden. Das scheint einfach nicht fair, zuverlässig oder gültig zu sein.“

Oswald fügte hinzu, dass „die Persönlichkeit in diesem offenen Sinne schwer zu entdecken ist“ und bezog sich dabei auf das locker strukturierte Videointerview, während psychologische Tests vorschreiben, „die Art und Weise, wie die Fragen strukturierter und standardisierter gestellt werden“. Er sagte dem Technology Review jedoch, dass er nicht glaube, dass aktuelle Systeme die Daten gesammelt hätten, um diese Entscheidungen genau zu treffen, oder dass sie überhaupt eine zuverlässige Methode hätten, um sie zu sammeln.

Sarah Myers West, die am AI Now Institute der New York University an den sozialen Auswirkungen von KI arbeitet, sagte der Chicago Tribune Anfang dieses Jahres: „Ich glaube nicht, dass die Wissenschaft wirklich die Idee unterstützt, dass Sprachmuster eine sinnvolle Bewertung der Persönlichkeit eines Menschen sind Persönlichkeit.” Ein Beispiel sei, dass KIs in der Vergangenheit beim Versuch, die Stimmen von Frauen zu verstehen, schlechter abgeschnitten hätten.

Han Xu, Mitbegründer und Chef Technology Officer von Curious Thing, sagte der Technology Review, dass dies tatsächlich ein großartiges Ergebnis sei, da es „das erste Mal ist, dass unser System auf Deutsch getestet wird, daher ein äußerst wertvoller Datenpunkt für uns, um zu recherchieren und zu sehen, ob es etwas enthüllt“. in unserem System.“

[MIT Technology Review]

Tom McKayPostsEmailTwitter

Tom umfasst Technologie, Politik, Online-Extremismus und Kurioses für Gizmodo. Seine Arbeiten erschienen bei Mic, Yahoo News, AOL, HuffPo, Business Insider, Merry Jane von Snoop Dogg, Wonkette und The Daily Banter.


Date:

by