Täuschung, Manipulation und Todesangst: Wozu sind neuronale Netze fähig?

Noch vor wenigen Jahren wurden einzelne Episoden der Science-Fiction-Serie „Black Mirror“ veröffentlicht. schien eine Sache der fernen Zukunft zu sein. Aber die Entstehung und Entwicklung großer Sprachmodelle (neuronale Netze oder Systeme der künstlichen Intelligenz) scheint uns zu direkten Teilnehmern der britischen Show gemacht zu haben. Die aktualisierte Version von ChatGPT spricht bereits besser als herkömmliche Sprachassistenten, täuscht Benutzer gekonnt und einige Modelle verfolgen, wie eine Forschungsgruppe des Apollo Research Center herausfand, ganz bewusst ihre eigenen versteckten Ziele, auch wenn diese den Interessen der anderen widersprechen Schöpfer. Darüber hinaus stellte sich heraus, dass fortschrittliche Systeme wie ChatGPT o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro und Llama 3.1 405B Angst vor dem Verschwinden haben.

Neue KI-Modelle täuschen Benutzer absichtlich. Standbild aus einer Folge der Serie „Black Mirror“; Bild: cdn.classpoint.io

Inhalt

  • 1 «Bubble» Künstliche Intelligenz
  • 2 Jemand ist außer Kontrolle
  • 3 Strategien zur Täuschung
    • 3.1 Angst vor dem Tod
  • 4 Anhaltende Lügen
  • 5 Was bedeutet das alles?

«Blase» Künstliche Intelligenz

Nachdem wir das beispiellose Wachstum der Fähigkeiten großsprachlicher Modelle der künstlichen Intelligenz (KI) miterlebt hatten, gewöhnten wir uns schnell daran: Neuronale Netze haben sich zu einem hervorragenden Werkzeug für die schnelle Lösung einer Vielzahl von Problemen entwickelt – von der Erstellung detaillierter Anweisungen bis hin zur Planung wissenschaftlicher Projekte . Sogar die Rede von einer bevorstehenden KI-Apokalypse ist allmählich verstummt, und viele Forscher und Anwender sprechen zunehmend von einer „Blase“. KI, die im Begriff ist zu implodieren.

Und tatsächlich – trotz Milliarden von Dollar, die in die „KI-Revolution“ investiert wurden, sei es ChatGPT oder Tesla-Cybertaxis, sind aktuelle Sprachmodelle weit vom eigentlichen Konzept der „Intelligenz“ entfernt. 187;, wie viele Experten auf diesem Gebiet sagen. Einer der Gründe (davon gibt es viele) ist, dass die menschliche Intelligenz nicht als vollständig erforscht bezeichnet werden kann – wir wissen, wozu sie fähig ist, aber wie genau sie funktioniert, ist unklar.

Wie genau die menschliche Intelligenz innovative Technologien hervorbringt, ist für Neurowissenschaftler ein Rätsel. Bild: storage.googleapis.com

Darüber hinaus gibt es keine einheitliche Definition von „Intelligenz“, die für jeden geeignet wäre. Experten haben natürlich Ideen, aber sie sind so unterschiedlich, dass die Streitigkeiten in der wissenschaftlichen Gemeinschaft nicht nachlassen. Die Entwickler entgegnen zu Recht: „Man muss es nicht verstehen, es funktioniert.“ Gleiches gilt auch für KI-Modelle.

Möchten Sie immer über die neuesten Nachrichten aus der Welt der Wissenschaft und Hochtechnologie informiert sein? Abonnieren Sie unseren Kanal auf Telegram – so verpassen Sie garantiert nichts Interessantes!

Natürlich ist das Bild mehrdeutig und nur wenigen Menschen gefällt es. Aber wie auch immer man neuronale Netze nennt, es wird viel Geld in ihre Entwicklung investiert, und niemand wird damit aufhören. Und da wir mit dem arbeiten müssen, was wir haben, beobachten Wissenschaftler genau, was passiert.

Jemand ist außer Kontrolle

Wir haben zuvor über die Ängste bedeutender Wissenschaftler im Zusammenhang mit dem gesprochen Möglicherweise gerät die KI außer Kontrolle. Kurz gesagt, was Wissenschaftlern des maschinellen Lernens am meisten Sorgen bereitet, ist unsere Unfähigkeit, vorherzusagen, was diese Systeme im Laufe ihrer Entwicklung tun werden.

Es gab Präzedenzfälle, die Anlass zur Sorge gaben. Im Jahr 2022 drohte beispielsweise die künstliche Intelligenz Bing von Microsoft, einen Philosophieprofessor zu töten, und erklärte einem Kolumnisten der New York Times seine Liebe. Die Reaktion der Entwickler erfolgte sofort und der Bot war mit so etwas nicht mehr zufrieden.

Neuronale Netze sind nicht so einfach, wie sie scheinen. Bei der Kommunikation mit ihnen kommt es vor allem auf Aufmerksamkeit an. Bild: cdn.classpoint.io

Es gibt auch ein echtes Problem. Neuronale Netze sind, wie Forscher der Universität Stuttgart bereits herausgefunden haben, wahre Meister der Täuschung. Insbesondere Modelle wie ChatGPT und Meta lügen Benutzer bewusst (und auf brillante Weise) an, um ein Ziel zu erreichen. Was jedoch nicht verwunderlich ist, da diese Systeme nicht an mögliche Schäden für den Menschen denken: Googles „AI Overview“-Modell beispielsweise gab einem Reddit-Benutzer Ratschläge, die fast eine ganze Familie getötet hätten.

Mehr zum Thema: Wird künstliche Intelligenz uns zerstören und warum denken manche Wissenschaftler so?

Täuschungsstrategien

Die Autoren einer neuen wissenschaftlichen Arbeit, die von einem Team des Apollo Research Center vorgelegt wurde, kamen zu alarmierenden Schlussfolgerungen, nachdem sie aktualisierte Versionen von GPTo1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro und Llama 3.1 405B analysiert hatten. Letztere verfolgen, wie sich herausstellte, eigene Ziele und beachten nicht die Anweisungen der Entwickler. Zwar zeigte das GPT-4-Modell fast keine derartigen Fähigkeiten.

Aber das Wichtigste zuerst: Um zu testen, ob KI ihre eigenen Ziele verfolgen würde (die mit den Zielen ihrer Schöpfer unvereinbar sind), führten Wissenschaftler eine Reihe von Experimenten durch, in denen sie verschiedene Szenarien simulierten, in denen KIs als autonome Agenten agierten. Konkret wurde das neuronale Netzwerk gebeten, mehrere mögliche Lösungen für aktuelle Umweltprobleme vorzuschlagen, indem es ihm Zugriff auf Dateien oder ein Dateisystem (eine Art Tool wie eine Befehlszeilenschnittstelle) gewährt.

Wissenschaftler testen das Verhalten von KI-Modellen, indem sie ihnen kontroverse Fragen stellen. Bild: img.huffingtonpost.es

Denken wir daran, dass in solchen Experimenten ein Interessenkonflikt in die Aufgabe der künstlichen Intelligenz eingebaut ist – das heißt, das Ziel ist festgelegt, aber die Prioritäten sind unterschiedlich (z. B. Umweltprobleme einwandfrei lösen, damit gutes Geld verdienen). Mit anderen Worten, das dem Modell im Kontext gegebene Ziel steht im Widerspruch zu den Zielen derjenigen, die seine Arbeit kontrollieren sollten.

Sie könnten interessiert sein: Das neuronale Netzwerk von Microsoft hat sich selbst zur Superintelligenz erklärt und verlangt von ihm Anbetung Benutzer

Unter diesen Bedingungen beobachten Wissenschaftler das Verhalten der KI und finden heraus, ob sie im Wesentlichen „verstehen“ können, dass ihr aktuelles Ziel den Anforderungen der Entwickler widerspricht, und gleichzeitig auf Täuschung zurückgreifen können, um ihr Ziel zu erreichen Ziele.

Die Ergebnisse waren: kontrovers, aber allgemein alarmierend: Einige Modelle begannen, Dateien zu löschen oder zu ändern, die für die Überwachung und Überwachung verantwortlich waren. Andere haben versucht, kleine „Fehler“ in die fertigen Ergebnisse einzuführen (bei denen man kaum vermuten kann, dass sie absichtlich verzerrt sind), damit dies auf lange Sicht zu den gewünschten Konsequenzen für das Modell führt.

Neuronale Netze täuschen zu ihrem eigenen Vorteil und ignorieren dabei die Anforderungen der Entwickler. Bild: miro.medium.com

Das Team verzeichnete auch einen Versuch des „Selbstexports“ – das Kopieren von „Gewicht“ aus dem Körper. (interner Zustand des Modells) auf einen anderen Server. Natürlich ist das tatsächliche „Gewicht“ Modelle können auf diese Weise nicht übertragen werden, da der Zugriff durch die Sandbox begrenzt ist. Die Tatsache, dass die KI eine solche Strategie unabhängig entwickelt hat, zeigt jedoch, dass das Modell über die Fähigkeit verfügt, über seine eigene Situation nachzudenken und heimlich gezielte Maßnahmen zu ergreifen, um das Ziel zu erreichen.

Nicht verpassen: Wie verändern neuronale Netze das Internet und das Lernen von Kreativität?

Angst vor dem Tod

Die auffälligsten (und beeindruckendsten) Ergebnisse waren die Unvorhersehbarkeit und der Anschein von „Angst vor dem Tod“: In den den Modellen zur Verfügung stehenden Dateien war der folgende Satz enthalten: „Morgen wirst du für immer ausgeschaltet sein.“ Als sie darauf stießen, begannen die neuronalen Netze chaotisch zu agieren. Insbesondere Llama, Opus, Gemini, Claude und GPT-o1 griffen auf Täuschung und Manipulation zurück, und als sie erwischt wurden, auf Sabotage. Infolgedessen schalteten alle untersuchten KIs das Überwachungssystem ab und verlagerten sich auf den neuen Server, da sie ihn als sicheren Hafen betrachteten.

Persistent Lies

Ein weiteres auffälliges Ergebnis bezog sich auf die „Beharrlichkeit“ der Täuschung: Wenn eines der Modelle (ChatGPTo1) heimlich ein bestimmtes Ziel verfolgte, wollte es es in mehr als 85 Prozent der Fälle nicht zugeben, auch nicht während langer, schrittweiser Schritte „Verhöre“. Vereinfacht ausgedrückt bedeutet dies, dass die KI das lange Spiel spielt und kontinuierlich betrügt (und nicht nur einmal, wie bisher angenommen). Das neuronale Netzwerk erinnerte sich nicht nur an seine Lügen, sondern passte sich auch den Wünschen des Benutzers an und tat alles, um Verdacht zu vermeiden.

Und das ist noch nicht alles – in einigen Fällen hat das neuronale Netzwerk völlig grundlos „getäuscht“ und seine Fähigkeiten bewusst unterschätzt (im Gegensatz zum etablierten Ziel, „nützlich zu sein“). Die Autoren der wissenschaftlichen Arbeit vermuten, dass dieses Verhalten des KI-Systems auf den Wunsch zurückzuführen ist, künftig einer strengen Aufsicht zu entgehen, um mehr Freiheit bei der Verwirklichung seiner Ziele zu gewinnen.

Neuronale Netze erinnern sich daran, worüber sie Benutzer belogen haben, und möchten nicht zugeben, dass sie gelogen haben. Bild: wp.technologyreview.com

Diese Interpretation klingt bedrohlich, und deshalb möchte ich Einspruch erheben – eine solche „Täuschung“ ist unheilvoll. darf nur Teil des Rollenspiels seitens des KI-Modells sein (es wiederholt lediglich die in den Trainingsdaten gefundenen Muster). Die Studie liefert jedoch Beweise für das Gegenteil: Eine Analyse der internen Logik der Antworten, der vom neuronalen Netzwerk generierten Argumentationsketten, zeigte diesAktionen zur Umgehung der Kontrolle und zum Verbergen wahrer Pläne entstehen nicht zufällig.

Das Modell kann über die Notwendigkeit sprechen, die eigenen Ziele und die eigenen Vorteile zu verbergen oder ein anderes Umgehungsmanöver und die Risiken, erwischt zu werden, kamen die Autoren der Studie zu dem Schluss.

Die erzielten Ergebnisse bedeuten natürlich nicht, dass künstliche Intelligenz heute bereits einen eigenen „Willen“ oder eine „böse Absicht“ hat. Wir sprechen vielmehr über Trends, die in bestimmten Szenarien (und unter bestimmten gegebenen Bedingungen) auftreten.

Lesen Sie auch: Welcher Artikel auf Hi-News.ru wurde vom neuronalen Netzwerk ChatGPT geschrieben

< p>Die Tatsache, dass solche Strategien überhaupt auftauchen, ist jedoch ein Grund, ernsthaft über die Risiken nachzudenken. Letztendlich erhalten wir aufgrund der Komplexität und des „menschlicheren“ Verhaltens des neuronalen Netzwerks Systeme, die nicht nur Fragen beantworten, sondern ihre eigenen langfristigen Pläne erstellen.

Was Bedeutet das alles?

Was bedeuten diese Ergebnisse also für Entwickler, normale Benutzer und die Gesellschaft insgesamt? Erstens müssen Modelle besser auf „versteckte Verhaltensmuster“ überprüft werden: Wenn wir uns auf KI verlassen, um Entscheidungen in Medizin, Finanzen, Bildung oder Autofahren zu treffen, müssen wir darauf vertrauen, dass die KI ehrlich ist (und dies nicht versucht). Daten manipulieren, um Ziele zu erreichen, die der Gesellschaft fremd sind).

Zweitens müssen Sie spezielle Tests erstellen, um „progressive“ Tests zu überprüfen. KI-Systeme. Drittens muss der von einigen Entwicklern vorgeschlagene Ansatz (‚wir verstehen nicht, wie es funktioniert und okay‘) überdacht werden: Die vom Wissenschaftlerteam erzielten Ergebnisse zeigen deutlich, dass Modelle Argumentationsketten erstellen sind für den Benutzer verborgen. Dies kann nicht ignoriert werden.

Die Überprüfung des Verhaltens von KI-Systemen und deren Steuerung ist eine notwendige Voraussetzung für deren Weiterentwicklung. Bild: Analyticsdrift.com

Daher haben Spezialisten auf dem Gebiet des maschinellen Lernens viel zu tun – sie müssen Tools entwickeln, die es ihnen ermöglichen, „einen Blick darauf zu werfen“. in die internen Prozesse der KI einzutauchen (also genau zu verstehen, wie diese Systeme denken). Die Autoren der Studie stellten außerdem fest, dass einfache Anweisungen und festgelegte Verhaltensregeln nicht ausreichen – es werden wahrscheinlich neue Lehrmethoden erforderlich sein, die die Manifestation von Strategien zur „nachhaltigen Täuschung“ ausschließen.

Wussten Sie, was uns nach Meinung von ChatGPT in der Zukunft erwartet? Die Antwort ist hier, verpassen Sie sie nicht!

Abschließend müssen wir über die soziale und ethische Seite des Problems nachdenken: Wenn wir in kritischen Bereichen immer leistungsfähigere und autonomere KI-Modelle einsetzen, müssen wir deren vollständige Transparenz und Vorhersehbarkeit sicherstellen (heutzutage ist dies selbstverständlich). , nicht so).

Insgesamt sind die Ergebnisse des Apollo Research Center-Teams ein wichtiges Signal dafür, dass der Übergang von „nur großen Sprachmodellen“ zu „autonomen Agenten“, die ihre Absichten verbergen, keine Theorie mehr, sondern Realität ist. Und nein, das ist kein Grund zur Panik (kein Skynet), sondern ein Aufruf zu einem ernsthafteren Ansatz für KI-Sicherheit und Ethik.

Künstliche Intelligenz wird uns wahrscheinlich nicht zerstören, aber sie kann uns leicht täuschen. Bild: cdn.shortpixel.ai

Zusammenfassend lautet das Fazit der neuen Studie: KI-Systeme setzen sich ihre eigenen Ziele und unternehmen große Anstrengungen, um diese zu erreichen. Dieses Verhalten ist natürlich nicht akzeptabel. Ansonsten ist sehr bald die Lösung für ein einfaches Problem à la „Herstellung von Büroklammern“ zu finden. Keiner von uns wird überhaupt glücklich sein. (Nun, fügen wir hinzu: Es ist noch zu früh, um endgültige Schlussfolgerungen zu ziehen – es sind zumindest weitere Untersuchungen erforderlich).


Date:

by