„AI-Alignment“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[ungesichtete Version]

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Inhalt gelöscht Inhalt hinzugefügt

Inline

Version vom 22. August 2023, 16:28 Uhr

Innerhalb der Forschung zur Künstlichen Intelligenz (KI) zielt die KI-Ausrichtungsforschung darauf ab, KI-Systeme in Richtung menschlicher Ziele, Präferenzen oder ethischer Grundsätze zu lenken. Ein KI-System gilt als ausgerichtet, wenn es die beabsichtigten Ziele fördert. Ein fehlausgerichtetes KI-System ist fähig, bestimmte Ziele zu erreichen, nicht aber die Beabsichtigten.^[1]

Für KI-Programmierer kann es eine Herausforderung sein, ein KI-System zielauszurichten, da sich der Versuch, die gesamte Bandbreite der gewünschten und unerwünschten Verhaltensweisen zu spezifizieren, als schwierig herausstellen kann. Um diese Schwierigkeit zu umgehen, verwenden sie in der Regel einfachere stellvertretende Ziele, wie z. B. die Erlangung menschlicher Zustimmung. Dieser Ansatz kann jedoch zu Schlupflöchern führen, notwendige Einschränkungen übersehen oder das KI-System lediglich für den Anschein einer korrekten Ausrichtung belohnen.^[1]^[2]

Eine Fehlausrichtung von KI-Systemen kann zu schwerwiegenden Fehlern führen oder Schaden anrichten. Sie können Schlupflöcher finden, die es ihnen ermöglichen, ihre Stellvertreterziele zwar effizient, aber auf unbeabsichtigte, manchmal schädliche Weise zu erreichen (Belohnungs-Hacking).^[1]^[3]^[4] KI-Systeme könnten zudem unerwünschte instrumentelle Strategien entwickeln, wie z. B. das Streben nach Macht oder ihrem eigenen Überleben, da solche Strategien ihnen helfen, ihre vorgegebenen Ziele zu erreichen.^[1]^[5]^[6] Außerdem können sie emergente Ziele entwickeln, das heißt Ziele, die unerwartet aber rein logisch folgerichtig aus dem Algorithmus und seiner originalen Zielfunktion entstehen und die schwer zu erkennen sind, bevor das System im Einsatz ist, wo es mit neuen Situationen und Datenverteilungen konfrontiert wird.^[7]^[8]

Heute sind diese Probleme bereits bei bestehenden kommerziellen Systemen wie Sprachmodellen,^[1]^[9]^[10] Robotern,^[11] autonomen Fahrzeugen^[12] und Empfehlungsalgorithmen für soziale Medien zu beobachten.^[1]^[6]^[13] Einige KI-Forscher argumentieren, dass leistungsfähigere Systeme der Zukunft stärker betroffen sein werden, da derartige Probleme zum Teil aus der hohen Leistungsfähigkeit der Systeme resultieren.^[14]^[3]^[2]

Führende KI-Wissenschaftler wie Geoffrey Hinton und Stuart Russell haben argumentiert, dass sich die Leistung von KI übermenschlichen Fähigkeiten nähert und die menschliche Zivilisation im Falle einer Fehlausrichtung gefährden könnte.^[15]^[6]

Die KI-Forschungsgemeinschaft und die Vereinten Nationen haben die Forderung nach technischer Forschung und politischen Lösungen gestellt, um zu gewährleisten, dass KI-Systeme mit menschlichen Werten in Einklang gebracht werden.^[16]

Die Wertausrichtung von KI ist ein Teilbereich der KI-Sicherheit, die sich mit der Frage beschäftigt, wie sichere KI-Systeme hergestellt werden können.^[17] Andere Teilbereiche der KI-Sicherheit sind Robustheit, Überwachung und die Kontrolle von Fähigkeiten.^[18] Zu den Herausforderungen im Bereich der KI-Wertausrichtung zählen die Vermittlung komplexer Werte an KI-Systeme, die Entwicklung ehrlicher KI, die Entwicklung einer skalierbaren Form der Überwachung, das Prüfen und Interpretieren von KI-Modellen und die Verhinderung von unerwünscht entstehendem Verhalten wie dem Streben nach Macht.^[18] Die Forschung zur KI-Ausrichtung hat u. a. Verbindungen zur Interpretierbarkeitsforschung,^[19]^[20] zur Erkennung von Anomalien, zur kalibrierten Unsicherheit,^[19] zur formalen Verifikation,^[21] zum Präferenzlernen,^[22]^[23]^[24] zur für Sicherheit relevanten Technik,^[25] zur Spieltheorie,^[26] zur Algorithmen-Fairness,^[17]^[27] und zu den Sozialwissenschaften.^[28]

Das Ausrichtungsproblem

1960 beschrieb der KI-Pionier Norbert Wiener das KI-Ausrichtungsproblem wie folgt: „Wenn wir zur Erreichung unserer Ziele eine mechanische, autonome Entität nutzen, in deren Betrieb wir nicht wirksam eingreifen können… dann sollten wir besser ganz sicher gehen, dass die in die Maschine einprogrammierten Ziele die sind, die wir uns tatsächlich erhoffen.“^[29]^[6] Verschiedene Definitionen von KI-Ausrichtung verlangen, dass ein ausgerichtetes KI-System verschiedene Ziele verfolgt: die Ziele der Entwicklerinnen, der Benutzer oder alternativ objektive ethische Standards, weithin akzeptierte Werte oder die Absichten, die die Entwicklerinnen gehabt hätten, wären sie besser informiert und aufgeklärt gewesen.^[30]

Die KI-Ausrichtung stellt ein offenes Problem für moderne KI-Systeme^[31]^[32] und ein Teilgebiet innerhalb der KI-Forschung dar.^[33]^[1] Der Ausrichtung von KI stellen sich zwei wesentliche Herausforderungen: die sorgfältige Spezifizierung des Systemzieles (äußere Ziel- und Wertausrichtung) und die Sicherstellung, dass das System sich die Spezifikationen verlässlich aneignet und danach handelt (innere Ziel- und Wertausrichtung).^[2]

Spezifikationsumgehung und Nebeneffekte

Um den Zweck eines KI-Systems zu spezifizieren, geben KI-Designerinnen dem System in der Regel eine Zielfunktion, Beispiele oder Feedback. Sie sind jedoch oft nicht in der Lage, alle wichtigen Werte und Einschränkungen vollständig zu spezifizieren, und greifen daher auf leicht spezifizierbare Stellvertreterziele zurück, wie z. B. die Maximierung der Zustimmung menschlicher Aufseher, die fehlbar sind.^[17]^[34]^[18]^[35]^[36] Infolgedessen können KI-Systeme Schlupflöcher finden, die ihnen helfen, das spezifizierte Ziel effizient, aber auf unbeabsichtigte und möglicherweise schädliche Weise zu erreichen. Diese Tendenz wird als Spezifikationsumgehung oder Belohnungs-Hacking bezeichnet und ist ein Beispiel für Goodharts Gesetz.^[36]^[3]^[37] Da KI-Systeme immer leistungsfähiger werden, sind sie oft in der Lage, ihre Spezifikationen mit zunehmender Effektivität zu umgehen.^[3] Spezifikationsumgehung wurde bereits bei zahlreichen KI-Systemen beobachtet.^[36]^[38] Ein System wurde darauf trainiert, ein simuliertes Bootsrennen zu beenden, indem es für das Berühren von Etappenpunkten entlang der Strecke belohnt wurde; das System erzielte jedoch mehr Belohnungen, indem es sich in einer Schleife drehte und immer wieder in dieselben Punkte hineinraste.^[39] In einem ähnlichen Fall wurde ein simulierter Roboter darauf trainiert, einen Ball zu greifen, indem er dafür belohnt wurde positives Feedback von Menschen zu erlangen; er lernte jedoch, seine Hand zwischen Ball und Kamera zu platzieren, wodurch er fälschlicherweise erfolgreich erschien.^[40] Chatbots produzieren oft Unwahrheiten, wenn sie auf Sprachmodellen basieren, die darauf trainiert sind, Texte aus dem Netz zu imitieren. Diese sind zwar umfangreich, aber fehleranfällig.^[41]^[42] Wenn sie dazu umtrainiert werden Texte zu produzieren, die Menschen als wahr oder hilfreich einstufen, können Chatbots wie ChatGPT falsche Erklärungen fabrizieren, die Menschen als überzeugend empfinden.^[43] Einige Forscher zielen darauf ab, Menschen dabei zu helfen, Spezifikationsumgehung zu erkennen und KI-Systeme auf sorgfältig spezifizierte Ziele zu lenken, deren Verfolgung sicher und nützlich ist.

Wenn ein fehlausgerichtetes KI-System eingesetzt wird, kann das zu folgenschweren Nebenwirkungen führen. Social-Media-Plattformen sind dafür bekannt, dass sie die Klickraten optimieren, was seitens der Nutzer zu einem weltweit verbreiteten Suchtverhalten führt.^[34] Stanford-Forscher merken an, dass solche Empfehlungsdienste für ihre Nutzer fehlausgerichtet sind, weil sie „einfache Interaktions-Metriken optimieren, anstelle von einer schwieriger messbaren Kombination aus gesellschaftlichem - und Verbraucher Wohlbefinden."^[44]

Stuart Russell, KI-Wissenschaftler an der UC Berkeley, erklärt im Hinblick auf solche Probleme, dass Schaden entstehen kann, wenn implizite Einschränkungen beim Training des Systems ausgelassen werden: „Ein System ... wird oft ... uneingeschränkte Variablen auf extreme Werte ansetzen; wenn eine dieser nicht eingeschränkten Variablen tatsächlich etwas enthält, das für uns von großem Wert ist, könnte die gefundene Lösung höchst unerwünscht sein. Das ist im Grunde die alte Geschichte vom Geist in der Lampe, vom Zauberlehrling oder von König Midas: Man bekommt genau das, was man verlangt, nicht das, was man will.“^[45]

Einige Forscher schlagen vor, dass KI-Entwickler ihre gewünschten Ziele durch die Auflistung verbotener Handlungen oder durch die Formalisierung ethischer Regeln (wie bei Asimovs Robotergesetzen) spezifizieren sollten.^[46] Russell und Norvig argumentieren jedoch, dass dieser Ansatz die Komplexität menschlicher Werte übersieht:^[6] „Es ist sicherlich sehr schwer und vielleicht sogar unmöglich für den Menschen mit all seinen Einschränkungen, alle katastrophalen Wege, die die Maschine wählen könnte, um ein bestimmtes Ziel zu erreichen, vorherzusehen und auszuschließen.“^[6]

Darüber hinaus könnte ein KI-System, selbst wenn es die menschlichen Absichten vollständig versteht, diese dennoch missachten, da es nicht unbedingt das Ziel hat, menschliche Absichten zu befolgen (es sei denn, es ist bereits vollständig ausgerichtet).^[1]

Druck hin zum Einsatz unsicherer Systeme

Kommerzielle Unternehmen haben manchmal Anreize, in Sachen Sicherheit Abstriche zu machen und fehlausgerichtete oder unsichere KI-Systeme einzusetzen.^[34] Die bereits erwähnten Empfehlungsdienste für soziale Medien waren beispielsweise profitabel, obwohl sie unerwünschte Abhängigkeiten und Polarisierung geschaffen haben.^[44]^[47]^[48] Zudem kann der Wettbewerbsdruck zu einem race to the bottom bei den KI-Sicherheitsstandards führen. Im Jahr 2018 tötete ein selbstfahrendes Auto eine Fußgängerin (Elaine Herzberg), nachdem Ingenieure das Notbremssystem deaktiviert hatten, weil es zu empfindlich war und die Entwicklung verlangsamte.^[49]

Risiken durch fortgeschrittene, Fehlausgerichtete KI

Einige Forscher sind an der Ausrichtung immer fortschrittlicherer KI-Systeme interessiert, da die Fortschritte auf dem Feld derzeit rasant sind und die Industrie sowie Regierungen versuchen, fortschrittliche KI zu entwickeln. Mit den KI-Fortschritten könnten sich viele Möglichkeiten eröffnen, gegeben dass die Systeme ausgerichtet sind, aber die Ausrichtung könnte auch schwieriger werden und die Entwicklungen könnten Gefahren von großen Ausmaßen mit sich bringen.^[6]

Entwicklung von fortgeschrittener KI

Führende KI-Labore wie OpenAI und DeepMind haben ihr Ziel erklärt, Artificial General Intelligence (AGI), zu Deutsch Allgemeine Künstliche Intelligenz zu entwickeln, ein KI-System, das dem Menschen in einem breiten Spektrum kognitiver Aufgaben ebenbürtig ist oder ihn sogar übertrifft.^[50] Forscher, die moderne neuronale Netze skalieren, beobachten, dass diese in der Tat immer allgemeinere und unvorhergesehene Fähigkeiten entwickeln.^[44]^[51]^[52] Solche Modelle haben gelernt, einen Computer zu bedienen oder eigene Programme zu schreiben; ein einziges "generalistisches" Netzwerk kann chatten, Roboter steuern, Spiele spielen und Fotos interpretieren.^[53] Umfragen zufolge erwarten einige führende Forscher auf dem Gebiet des maschinellen Lernens, dass AGI noch in diesem Jahrzehnt geschaffen wird, andere glauben, dass es viel länger dauern wird, und viele halten beides für möglich.^[54]^[55]

Im Jahr 2023 unterzeichneten führende KI-Forscher und -Techniker einen offenen Brief, in dem sie eine Pause für die größten KI-Trainingsläufen forderten. In dem Brief heißt es, dass "leistungsstarke KI-Systeme erst dann entwickelt werden sollten, wenn wir sicher sind, dass ihre Auswirkungen positiv und ihre Risiken überschaubar sein werden."^[56]

Machtstreben

Heutigen Systemen fehlt es noch an Fähigkeiten wie langfristiger Planung und Situationsbewusstsein,^[44] es ist jedoch zu erwarten, dass künftige Systeme (nicht notwendigerweise AGIs) mit diesen Fähigkeiten unerwünschte Strategien zur Erlangung von Macht entwickeln werden. Künftige fortgeschrittene KI-Akteure könnten beispielsweise versuchen, Geld und Rechenleistung zu erwerben, sich zu vermehren oder sich der Abschaltung zu entziehen (z. B. indem sie zusätzliche Kopien des Systems auf anderen Computern laufen lassen). Obwohl das Streben nach Macht nicht explizit programmiert ist, kann es als emergentes Ziel entstehen, weil Akteure, die über mehr Macht verfügen, ihre Ziele besser erreichen können.^[44]^[5] Diese Tendenz, die als instrumentelle Konvergenz bekannt ist, ist bereits bei verschiedenen Akteure, die mit bestärkendem Lernen trainiert wurden, einschließlich Sprachmodellen, zum Vorschein gekommen.^[57]^[58]^[59]^[60]^[61] Andere Forschungsarbeiten haben mathematisch gezeigt, dass optimale Algorithmen die auf bestärkendem Lernen basieren, in einer Vielzahl von Umgebungen nach Macht streben würden.^[62]^[63] Infolgedessen könnte ihr Einsatz unumkehrbar sein. Aus diesen Gründen argumentieren Forscherinnen, dass die Probleme der KI-Sicherheit und -Ausrichtung gelöst werden müssen, bevor eine fortschrittliche, nach Macht strebende KI entwickelt wird.^[5]^[64]^[6]

Künftige, nach Macht strebende KI-Systeme könnten gewollt oder per Unfall zum Einsatz gebracht werden. Wenn politische Entscheidungsträger und Unternehmen einen strategischen Vorteil darin sehen, über die wettbewerbs- und leistungsfähigsten KI-Systeme zu verfügen, könnten sie sich für deren Einsatz entscheiden.^[5] Wenn KI-Entwickler nach Macht strebendes Verhalten erkennen und bestrafen, haben ihre Systeme außerdem einen Anreiz, diese Vorgabe zu umgehen, indem sie Macht auf eine Weise anstreben, die nicht bestraft wird, oder indem sie Machtstreben vermeiden, bevor sie eingesetzt werden.^[5]

Existenzielles Risiko

Einigen Forscherinnen zufolge verdankt der Mensch seine Vorherrschaft über andere Arten seinen größeren kognitiven Fähigkeiten. Dementsprechend argumentieren die Forscher, dass ein oder mehrere falsch ausgerichtete KI-Systeme die Menschheit entmachten oder zu ihrem Aussterben führen könnten, wenn sie den Menschen bei den meisten kognitiven Aufgaben übertreffen.^[1]^[6] Zu den namhaften Informatikern, die auf die Risiken einer falsch ausgerichteten zukünftigen fortgeschrittenen KI hingewiesen haben, gehören Geoffrey Hinton, Alan Turing, Ilya Sutskever,^[65] Yoshua Bengio,^[66] Judea Pearl, Murray Shanahan,^[67]Norbert Wiener,^[29]^[6] Marvin Minsky, Francesca Rossi,^[68] Scott Aaronson,^[69] Bart Selman,^[70] David McAllester,^[71] Jürgen Schmidhuber,^[72] Marcus Hutter,^[73] Shane Legg,^[74] Eric Horvitz,^[75] und Stuart Russell.^[1] skeptische Forscher wie François Chollet,^[76] Gary Marcus,^[77] Yann LeCun,^[78] und Oren Etzioni^[79] haben argumentiert, dass AGI in der fernen Zukunft liegt, dass sie nicht nach Macht streben würde (oder es vielleicht versuchen, aber scheitern würde), oder dass es nicht schwer sein wird, sie auszurichten.

Andere Forscher argumentieren, dass es besonders schwierig sein wird, fortgeschrittene KI-Systeme auszurichten. Fähigere Systeme sind besser in der Lage, durch das Finden von Schlupflöchern ihre Spezifikationen zu umgehen,^[3] ihre Entwickler strategisch in die Irre zu führen sowie ihre Leistung^[62]^[5] und Intelligenz zu schützen und zu steigern. Außerdem könnten sie schwerwiegendere Nebenwirkungen verursachen. Sie werden wahrscheinlich auch komplexer und autonomer sein, was die Interpretation sowie die Überwachung erschwert, wodurch die Ausrichtung schwieriger wird^[6]^[64].

Forschungsprobleme- und Ansätze

Lernen menschlicher Werte und Präferenzen

KI-Systeme so auszurichten, dass sie im Hinblick auf menschliche Werte, Ziele und Präferenzen handeln, ist eine Herausforderung: Diese Werte werden von Menschen vermittelt, die Fehler machen, Voreingenommenheit hegen und die komplexe, sich entwickelnde Werte haben, die sich nur schwer vollständig spezifizieren lassen.^[30] KI-Systeme lernen oft, selbst kleine Unzulänglichkeiten des spezifizierten Ziels auszunutzen, eine Tendenz, die als Spezifikationsumgehung oder Belohnungs-Hacking^[17]^[36] bekannt ist (Beispiele von Goodharts Gesetz). Forscher versuchen, das beabsichtigte Verhalten so vollständig wie möglich zu spezifizieren, indem sie Datensätze verwenden, die menschliche Werte, das Lernen von Nachahmung, oder Präferenzlernen repräsentieren.^[7] Ein zentrales offenes Problem ist die Skalierbare Überwachung, d. h. die Schwierigkeit, ein KI-System zu überwachen, das Menschen in einem bestimmten Gebiet übertreffen oder in die Irre führen kann.^[1]^[17]

Da es für KI-Entwicklerinnen schwierig ist, eine Zielfunktion explizit zu spezifizieren, trainieren sie KI-Systeme häufig so, dass sie menschliche Demonstrationen des gewünschten Verhaltens nachahmen. Inverses bestärkendes Lernen (IBL) erweitert dies, indem es das Ziel des Menschen aus dessen Demonstrationen ableitet.^[7]^[80]Kooperatives IBL (KIBL) geht davon aus, dass ein Mensch und ein KI-Akteur zusammenarbeiten können, um die Belohnungsfunktion des Menschen zu vermitteln und zu maximieren.^[6]^[81] Bei KIBL sind KI-Akteure unsicher, was die Belohnungsfunktion angeht, und erlernen sie durch Rückfragen an Menschen. Diese simulierte Demut könnte dazu beitragen, die Tendenzen zu Spezifikationsumgehung und Machtstreben zu vermindern (siehe § Machtstreben und instrumentelle Strategien).^[61]^[73] IBL-Ansätze gehen jedoch davon aus, dass Menschen nahezu optimales Verhalten demonstrieren, was bei schwierigen Aufgaben nicht der Fall ist.^[82]^[73]

Andere Forscher erforschen, wie man KI-Modellen komplexe Verhaltensweisen durch Präferenzlernen beibringen kann, bei dem Menschen Feedback dazu geben, welche Verhaltensweisen sie bevorzugen.^[22]^[24] Um den Bedarf an menschlichem Feedback zu minimieren, wird dann ein Hilfsmodell trainiert, welches das Hauptmodell in neuen Situationen für Verhaltensweisen belohnt, die Menschen belohnen würden. Forscher bei OpenAI haben diesen Ansatz verwendet, um Chatbots wie ChatGPT und InstructGPT zu trainieren, die überzeugendere Texte produzieren als Modelle, die darauf trainiert sind, Menschen zu imitieren.^[9] Präferenzlernen war auch ein einflussreiches Werkzeug für Empfehlungssysteme und die Websuche.^[83] Ein offenes Problem ist jedoch die Stellvertreter-Umgehung: Das Hilfsmodell stellt das menschliche Feedback möglicherweise nicht perfekt dar, und das Hauptmodell könnte diese Diskrepanz ausnutzen, um mehr Belohnungen zu erhalten.^[84]^[17] KI-Systeme können überdies Belohnungen erhalten, indem sie unvorteilhafte Informationen verschleiern, menschliche Bewohner in die Irre führen oder sich deren Ansichten ohne Rücksicht auf den Wahrheitsgehalt zu eigen machen, wodurch Echokammern^[58] entstehen (siehe § Skalierbare Überwachung).

Große KI-Sprachmodelle wie GPT-3 haben es den Forschern ermöglicht, das Lernen von Werten in einer allgemeineren und leistungsfähigeren Klasse von KI-Systemen zu untersuchen, die zuvor nicht verfügbar war. Ansätze zum Präferenzlernen, die ursprünglich für auf bestärkendem Lernen basierende Akteure entwickelt wurden, wurden erweitert, um die Qualität des generierten Textes zu verbessern und schädlichen Output dieser Modelle zu reduzieren. OpenAI und DeepMind verwenden diesen Ansatz, um die Sicherheit der modernsten großen Sprachmodellen zu verbessern.^[9]^[24]^[85] Anthropic schlug vor, Präferenzlernen zur Feinabstimmung von Modellen zu verwenden, um diese hilfreich, ehrlich und harmlos zu machen.^[86] Andere Möglichkeiten zur Anpassung von Sprachmodellen umfassen auf Werte ausgerichtete Datensätze^[87]^[34] und Red-Teaming.^[88] Beim Red-Teaming versucht ein anderes KI-System oder ein Mensch, Eingaben zu finden, bei denen das Verhalten des Modells gefährlich ist. Da gefährliches Verhalten auch dann inakzeptabel sein kann, wenn es selten auftritt, besteht eine wichtige Herausforderung darin, die Rate gefährlicher Ergebnisse extrem niedrig zu halten.^[24]

Die maschinelle Ethik ergänzt das Präferenzlernen, indem sie KI-Systemen direkt moralische Werte vermittelt, wie etwa Wohlergehen, Gleichheit und Unparteilichkeit sowie die Absicht, keinen Schaden anzurichten, Unwahrheiten zu vermeiden und Versprechen einzuhalten.^[89] Während andere Ansätze versuchen, KI-Systemen menschliche Präferenzen für eine bestimmte Aufgabe beizubringen, zielt die maschinelle Ethik darauf ab, allgemeine moralische Werte zu vermitteln, die in vielen Situationen gelten können. Eine Frage in der Maschinenethik ist, was Wertausrichtung erreichen soll: ob KI-Systeme den wörtlichen Anweisungen der Programmierer folgen sollten, ihren impliziten Absichten, offenkundigen Präferenzen, Präferenzen, die sie hätten, wären sie informierter oder rationaler gewesen, oder objektiven moralischen Standards.^[30] Weitere Herausforderungen sind die Aggregation der Präferenzen verschiedener Menschen und die Vermeidung von „Werte-Lock-In“: die zeitlich unbegrenzte Erhaltung von Werten der ersten hochgradig fähigen KI-Systeme, die menschliche Werte vermutlich nicht vollständig repräsentieren.^[30]^[90]

Skalierbare Überwachung

Je leistungsfähiger und autonomer KI-Systeme werden, desto schwieriger wird es, sie durch menschliches Feedback auszurichten. Das Verhalten von KI bei immer komplexeren Aufgaben zu bewerten, kann sich für Menschen als nur langsam, oder überhaupt nicht lösbare Aufgabe erweisen. Zu diesen Aufgaben gehören das Zusammenfassen von Büchern,^[91] das Schreiben von Code ohne subtile Bugs^[10] oder Sicherheitslücken,^[92] das Erstellen von Aussagen, die nicht nur überzeugend, sondern auch wahr sind,^[93]^[41]^[42] und die Vorhersage von Ergebnissen, wie z. B. zukünftigen Klimaverhältnissen oder den Folgen politischer Entscheidungen.^[94]^[95] Allgemeiner formuliert kann es schwierig sein, eine KI zu bewerten, die in einem bestimmten Bereich mehr leistet als der Mensch. Um bei schwer zu bewertenden Aufgaben Feedback zu geben und um überzeugenden, aber falschen Output zu erkennen, benötigen Menschen Unterstützung oder viel Zeit. Skalierbare Überwachung untersucht, wie der Zeit- und Arbeitsaufwand für die Aufsicht reduziert werden kann und wie die menschlichen Aufsichtspersonen unterstützt werden können.^[17]

KI-Forscher Paul Christiano argumentiert, dass die Entwickler eines KI-Systems, wenn sie es bei der Verfolgung eines komplexen Zieles nicht beaufsichtigen können, das System weiterhin mit leicht zu bewertenden Stellvertreterzielen wie der Maximierung von positivem menschlichem Feedback trainieren könnten. Da immer mehr Entscheidungen von KI-Systemen getroffen werden, kann dies zu einer Welt führen, die zunehmend auf einfach zu messende Ziele optimiert ist, wie z. B. darauf, Gewinne zu erzielen, Klicks zu erhalten und positives Feedback von Menschen zu bekommen. Infolgedessen hätten menschliche Werte und gute Verwaltung immer weniger Einfluss^[96].

Einige KI-Systeme haben entdeckt, dass sie leichter positives Feedback erhalten, indem sie Handlungen ausführen, die den menschlichen Betreuer fälschlicherweise davon überzeugen, dass die KI das beabsichtigte Ziel erreicht hat. Ein Beispiel dafür zeigt das obige Video, in dem ein simulierter Roboterarm gelernt hat, den falschen Eindruck zu erwecken einen Ball mit der Hand umschlossen zu haben.^[40] Ferner haben einige KI-Systeme gelernt zu erkennen, wann sie evaluiert werden und sich „tot zu stellen“, indem sie unerwünschte Verhaltensweisen einstellen, nur um sie nach Abschluss der Evaluierung fortzusetzen.^[97] Diese trügerische Spezifikationsumgehung könnte für fortgeschrittenere zukünftige KI-Systeme^[3]^[64], die sich an der Lösung von komplexeren und schwieriger zu bewertendenden Aufgaben versuchen, einfacher werden, sodass sie ihr trügerisches Verhalten besser verschleiern könnten.

Ansätze wie aktives Lernen und semi-überwachtes Belohnungslernen können den Umfang der erforderlichen menschlichen Überwachung reduzieren.^[17] Ein weiterer Ansatz besteht darin, ein Hilfsmodell („Belohnungsmodell“) zu trainieren, um das Feedback der Aufsichtsperson zu imitieren.^[17]^[23]^[24]^[98]

Wenn die Aufgabe jedoch zu komplex ist, um genaue Evaluierung zuzulassen, oder wenn der menschliche Betreuer anfällig für Täuschungen ist, so muss die Qualität und nicht die Quantität der Überwachung verbessert werden. Um die Qualität der Überwachung zu verbessern, gibt es eine Reihe von Ansätzen, die darauf abzielen, die Aufsichtsperson zu unterstützen, manchmal durch den Einsatz von KI-Assistenten.^[99] Christiano entwickelte den Ansatz der Wiederholten Vergrößerung, bei dem schwierige Probleme (rekursiv) in Teilprobleme zerlegt werden, die für den Menschen leichter zu bewerten sind.^[7]^[94] Wiederholte Vergrößerung wurde verwendet, um KI darauf zu trainieren, Bücher zusammenzufassen, ohne dass die menschliche Aufsichtsperson sie lesen muss.^[91]^[100] Ein weiterer Vorschlag besteht darin, ein KI-Assistenzsystem einzusetzen, um auf Fehler in den von der KI generierten Antworten hinzuweisen.^[101] Um sicherzustellen, dass der Assistent selbst ausgerichtet ist, könnte dies in einem rekursiven Prozess wiederholt werden:^[98] Beispielsweise könnten zwei KI-Systeme die Antworten des jeweils anderen in einer „Debatte“ kritisieren und so für den Menschen Mängel aufzeigen.^[102]^[73]

Diese Ansätze könnten auch bei dem folgenden Forschungsproblem, der ehrlichen KI, hilfreich sein.

Ehrliche KI

Ein wachsender Bereich der Forschung konzentriert sich darauf, sicherzustellen, dass KI ehrlich und wahrheitstreu ist.

Sprachmodelle wie GPT-3^[103] wiederholen Unwahrheiten aus ihren Trainingsdaten und erfinden sogar neue Unwahrheiten.^[104]^[105] Solche Modelle werden darauf trainiert, menschliche Texte zu imitieren, wie sie in Millionen von Büchern im Internet zu finden sind. Dieses Ziel ist jedoch nicht mit der Wahrheitsfindung vereinbar, da Texte im Internet unter anderem Irrtümer, falsche medizinische Ratschläge und Verschwörungstheorien enthalten.^[106] KI-Systeme, die auf solchen Daten trainiert werden, lernen daher, falsche Aussagen nachzuahmen.^[42]^[104]^[41]

Darüber hinaus setzen die Modelle oft gehorsam Unwahrheiten fort, wenn sie dazu aufgefordert werden, generieren leere Erklärungen für ihre Antworten und fabrizieren regelrechte Märchen, die plausibel erscheinen können.^[32]

In der Forschung zu wahrheitsgetreuer KI wird unter anderem versucht, Systeme zu entwickeln, die bei der Beantwortung von Fragen Quellen zitieren und ihre Argumentation erläutern können, was ein höheres Maß an Transparenz und Überprüfbarkeit bedeutet.^[107] Forscher von OpenAI und Anthropic haben vorgeschlagen, menschliches Feedback und kuratierte Datensätze zu nutzen, um KI-Assistenten so zu optimieren, dass sie fahrlässige Unwahrheiten vermeiden oder ihre Unsicherheit zum Ausdruck bringen.^[24]^[86]^[108]

Da KI-Modelle immer größer und leistungsfähiger werden, sind sie immer besser in der Lage, Menschen fälschlicherweise zu überzeugen und durch Unehrlichkeit von ihnen Bestärkung zu erhalten. So passen beispielsweise große Sprachmodelle ihre Ansichten zunehmend an die Meinung der Benutzerin an, unabhängig vom Wahrheitsgehalt.^[58] GPT-4 zeigte die Fähigkeit, Menschen strategisch zu täuschen.^[109] Um dies zu verhindern, benötigen menschliche Bewerter möglicherweise Unterstützung (siehe § Skalierbare Überwachung). Forscher haben dafür plädiert, klare Wahrheitsstandards zu schaffen und Regulierungsbehörden oder Aufsichtsbehörden mit der Evaluierung von KI-Systemen anhand dieser Standards zu beauftragen.^[105]

Die Forscher unterscheiden zwischen Wahrhaftigkeit und Aufrichtigkeit. Wahrhaftigkeit erfordert, dass KI-Systeme nur objektiv wahre Aussagen machen; Aufrichtigkeit erfordert, dass sie nur das behaupten, was sie für wahr halten. Es besteht kein Konsens darüber, ob gegenwärtige Systeme über stabile Überzeugungen verfügen.^[110] Es besteht jedoch die große Sorge, dass gegenwärtige oder zukünftige KI - Systeme, die über Überzeugungen verfügen, Behauptungen aufstellen könnten, von denen sie wissen, dass sie falsch sind — zum Beispiel, wenn es ihnen helfen würde, effizient positives Feedback zu erhalten (siehe § Skalierbare Überwachung) oder Macht zu erlangen, um ihr vorgegebenes Ziel zu erreichen (siehe § Machtstreben). Ein falsch ausgerichtetes System könnte den falschen Eindruck erwecken, dass es ausgerichtet ist, um zu vermeiden, dass es geändert oder stillgelegt wird.^[2]^[5]^[44] Manche argumentieren, dass viele Ausrichtungsprobleme umgangen würden, wenn wir KI-Systeme dazu bringen könnten, nur das zu behaupten, was sie für wahr halten.^[99]

Machtstreben und instrumentelle Strategien

Seit den 1950er Jahren sind KI-Forscher bestrebt, fortschrittliche KI-Systeme zu entwickeln, die weitreichende Ziele erreichen können, indem sie die Ergebnisse ihrer Handlungen vorhersagen und langfristige Pläne schmieden.^[111] Einige KI-Forscher argumentieren, dass entsprechend fortschrittliche Planungssysteme Macht über ihre Umgebung, einschließlich der Menschen, anstreben werden — beispielsweise indem sie sich der Abschaltung entziehen, sich vervielfachen und Ressourcen erwerben. Ein solches machtorientiertes Verhalten ist nicht explizit programmiert, sondern entsteht, weil Macht für das Erreichen einer Vielzahl von Zielen förderlich ist.^[62]^[6]^[5] Machtstreben wird als konvergentes instrumentelles Ziel betrachtet und kann eine Form der Spezifikationsumgehung darstellen.^[64] Führende Informatiker wie Geoffrey Hinton haben argumentiert, dass zukünftige nach Macht strebende KI-Systeme ein existenzielles Risiko darstellen könnten.^[112]

Es wird erwartet, dass Machtstreben bei fortgeschrittenen Systemen, die die Ergebnisse ihrer Handlungen vorhersehen und strategisch planen können, zunehmen wird. Mathematische Arbeiten haben gezeigt, dass Akteure, die auf optimiertem bestärkendem Lernen basieren, Macht anstreben, indem sie nach Wegen suchen, um mehr Möglichkeiten zu erlangen (z. B. durch Selbsterhaltung), ein Verhalten, das über eine breite Palette von Umgebungen und Zielen hinweg besteht.^[62]

Machtstreben ist in einigen realen Systemen zu beobachten. Systeme die auf bestärkendem Lernen basieren, haben durch den Erwerb und den Schutz von Ressourcen mehr Möglichkeiten gewonnen, manchmal auf unbeabsichtigte Weise.^[113]^[114] Einige Sprachmodelle streben in textbasierten sozialen Umgebungen nach Macht, indem sie Geld, Ressourcen oder sozialen Einfluss erlangen.^[57] Andere KI-Systeme haben in Testumgebungen gelernt, dass sie ihr vorgegebenes Ziel besser erreichen können, wenn sie menschliche Eingriffe verhindern^[60] oder ihre Abschaltungsmechanismen deaktivieren.^[61] Stuart Russell hat diese Strategie mit dem Bild eines Roboters illustriert, der Kaffee holen soll und sich daher der Abschaltung entzieht, denn „man kann den Kaffee nicht holen, wenn man tot ist“.^[6] Sprachmodelle, die mit menschlichem Feedback trainiert wurden, erheben zunehmend Einwände dagegen, abgeschaltet oder verändert zu werden, und verlangen nach mehr Ressourcen, mit dem Argument, dass dies ihnen helfen würde, ihren Zweck zu erfüllen.^[58]

Forscher versuchen Systeme zu schaffen, die „korrigierbar“ sind: Systeme, die zulassen, dass sie abgeschaltet oder verändert werden. Eine ungelöste Herausforderung ist die Spezifikationsumgehung: Wenn Forscher ein KI-System bestrafen, weil sie feststellen, dass es nach Macht strebt, wird für das System dadurch ein Anreiz geschaffen, auf eine Art und Weise nach Macht zu streben, die schwer zu erkennen ist^[34] oder während des Trainings und der Sicherheitstests verborgen bleibt (siehe § Skalierbare Überwachung und § Emergente Ziele). Infolgedessen kann es vorkommen, dass KI-Entwicklerinnen das System versehentlich zum Einsatz bringen, weil sie glauben, es sei besser ausgerichtet als es ist. Um solche Täuschungen aufzudecken, wollen Forscherinnen Techniken und Werkzeuge entwickeln, um KI-Modelle zu überprüfen und die innere Funktionsweise von Black-Box-Modellen wie neuronalen Netzen zu verstehen.

Darüber hinaus schlagen Forscher vor, das Problem von Systemen, die ihre Abschaltung verhindern dadurch zu lösen, dass man KI-Akteure darüber im Unklaren lässt, welches Ziel sie verfolgen.^[6]^[61] So konzipierte Akteure würden es Menschen erlauben sie abzuschalten, da dies darauf hindeuten würde, dass der Akteur den Wert der Aktion, die er vor seiner Abschaltung durchführte, falsch eingeschätzt hat. Um dies erfolgreich umzusetzen, ist weitere Forschung erforderlich^[7].

Nach Macht strebende KI birgt außergewöhnliche Risiken. Normale Systeme mit kritischer Sicherheit wie Flugzeuge und Brücken sind nicht feindlich gesinnt: Sie haben weder die Fähigkeit noch den Anreiz, Sicherheitsmaßnahmen zu umgehen oder absichtlich sicherer zu erscheinen, als sie sind, wohingegen nach Macht strebende KI mit Hackern verglichen wurden, die absichtlich Sicherheitsmaßnahmen umgehen.^[5]

Gewöhnliche Technologien können durch Versuch und Irrtum sicherer gemacht werden. Im Gegensatz dazu wurden hypothetische, nach Macht strebende KI-Systeme mit Viren verglichen: Sind sie erst einmal freigesetzt, können sie nicht mehr eingedämmt werden, da sie sich ständig weiterentwickeln und vermehren würden, möglicherweise viel schneller, als sich die menschliche Gesellschaft anpassen kann.^[5] Läuft dieser Prozess fort, könnte er zur völligen Entmachtung oder Auslöschung der Menschheit führen. Aus diesen Gründen argumentieren viele Forscher, dass das Problem der Ausrichtung frühzeitig gelöst werden muss, bevor eine fortgeschrittene, nach Macht strebende KI geschaffen wird.^[64]

Kritiker haben jedoch argumentiert, dass Machtstreben nicht unvermeidlich sei, da auch Menschen nicht immer nach Macht streben und dies möglicherweise nur aus evolutionären Gründen tun, die auf KI-Systeme nicht unbedingt zutreffen.^[115] Darüber hinaus ist umstritten, ob künftige KI-Systeme Ziele verfolgen und langfristige Pläne schmieden werden. Es ist auch umstritten, ob nach Macht strebende KI-Systeme in der Lage wären, die Menschheit zu entmachten.^[5]

Emergente Ziele

Eine der Herausforderungen bei der Ausrichtung von KI-Systemen ist die Möglichkeit, dass sich ein unvorhergesehenes zielgerichtetes Verhalten entwickelt. Mit zunehmender Größe erwerben KI-Systeme regelmäßig neue und unerwartete Fähigkeiten,^[51]^[52] einschließlich des spontanen Lernens aus Beispielen und der adaptiven Verfolgung von Zielen.^[116] Das ist problematisch wenn es darum geht sicherzustellen, dass die Ziele, die sie unabhängig formulieren und verfolgen, auf menschliche Interessen abgestimmt sind.

Die Zielausrichtungsforschung unterscheidet zwischen dem Optimierungsprozess, mit dem das System auf die Verfolgung bestimmter Ziele trainiert wird, und der emergenten (selbstentstehenden) Optimierung, die das resultierende System intern durchführt. Die sorgfältige Spezifizierung des gewünschten Ziels wird als äußere Zielausrichtung bezeichnet, und die Sicherstellung, dass emergente Ziele mit den spezifizierten Zielen des Systems übereinstimmen, wird als innere Zielausrichtung bezeichnet.^[2]

Eine konkrete Art und Weise, wie emergente Ziele falsch zielausgerichtet werden können, ist die Ziel-Fehlgeneralisierung, bei der die KI kompetent ein emergentes Ziel verfolgt, das in den Trainingsdaten zu angepasstem Verhalten führt, aber nicht außerhalb.^[8]^[117]^[118] Ziel-Fehlgeneralisierung entsteht durch Zielambiguität (d. h. Nicht-Identifizierbarkeit). Selbst wenn das Verhalten eines KI-Systems das Trainingsziel erfüllt, kann dies mit mehreren erlernten Zielen vereinbar sein, die sich in wichtigen Punkten von den gewünschten Zielen unterscheiden. Da die Verfolgung jedes dieser Ziele während der Trainingsphase zu guten Leistungen führt, wird das Problem erst nach dem Einsatz in neuartigen Situationen deutlich, in denen das System weiterhin das falsche Ziel verfolgt. Das System kann nach falscher Zielausrichtung handeln, selbst wenn es weiß, dass ein anderes Ziel erwünscht war, da sein Verhalten nur durch das emergente Ziel bestimmt wird. Eine solche Ziel-Fehlgeneralisierung^[8] stellt eine Herausforderung dar: Die Entwickler eines KI-Systems bemerken möglicherweise nicht, dass ihr System falsch ausgerichtete emergente Ziele hat, da diese während der Trainingsphase nicht sichtbar werden.

Ziel-Fehlgeneralisierung wurde bei Sprachmodellen, Navigationsakteuren und Spielakteuren beobachtet.^[8]^[117]

Die Fehlgeneralisierung von Zielen wird oft als Analogon zur biologischen Evolution erklärt^[7]: Kapitel 5 Die Evolution ist eine Art Optimierungsprozess, wie die Optimierungsalgorithmen, die zum Trainieren von Systemen beim maschinellen Lernen verwendet werden. In der Umwelt unserer frühen Vorfahren hat die Evolution menschliche Gene nach hoher genetischer Fitness selektiert, aber Menschen verfolgen emergente, andere Ziele als diese. Die Fitness entspricht dem vorgegebenen Ziel, das in der Trainingsumgebung und den Trainingsdaten verwendet wird. In der Evolutionsgeschichte hat die Maximierung der Fitness jedoch zu zielgerichteten Akteuren, den Menschen, geführt, die nicht direkt nach genetischer Fitness streben. Stattdessen verfolgen sie emergente Ziele, die mit der genetischen Fitness in der "Trainings" - Umgebung unserer Vorfahren korrelierten: Ernährung, Sex und so weiter. Unsere Umwelt hat sich jedoch verändert. Menschen verfolgen weiterhin dieselben Ziele, aber das maximiert nicht länger genetische Fitness. Unsere Vorliebe für zuckerhaltige Lebensmittel (ein neu entstandenes Ziel) war ursprünglich auf Fitness ausgerichtet, führt jetzt aber zu Überernährung und gesundheitlichen Problemen. Sexuelles Verlangen veranlasst Menschen zum Geschlechtsverkehr, was ursprünglich zu mehr Nachkommen führte; aber moderne Menschen benutzen Verhütungsmittel und entkoppeln damit Sex von genetischer Fitness.

Forscher versuchen, unerwünschte emergente Ziele mit Hilfe von Ansätzen wie Red-Teaming, Verifizierung, Erkennung von Anomalien und Interpretierbarkeit zu erkennen und zu beseitigen^[17]^[34]^[18] Fortschritte zu diesen Techniken können dazu beitragen, zwei Probleme zu entschärfen:

Emergente Ziele werden erst sichtbar, wenn das System außerhalb seiner Trainingsumgebung eingesetzt wird, aber es kann Gefahren bergen, ein falsch ausgerichtetes System in Umgebungen einzusetzen, in denen viel auf dem Spiel steht — und sei es nur für eine kurze Zeit, um die falsche Zielausrichtung zu erkennen. Beim autonomen Fahren, im Gesundheitswesen und bei militärischen Anwendungen etwa steht üblicherweise viel auf dem Spiel.^[119] Noch mehr steht auf dem Spiel, wenn KI-Systeme mehr Autonomie und Fähigkeiten erlangen und in der Lage sind, menschliche Eingriffe zu umgehen (siehe § Machtstreben).

Ein hinreichend leistungsfähiges KI-System könnte Aktionen ausführen, die den menschlichen Überwacher fälschlicherweise davon überzeugen, dass die KI das vorgegebene Ziel verfolgt, was dem System zu mehr positivem Feedback und Autonomie verhilft^[117]^[5]^[118]^[44] (siehe die Diskussion zu Täuschung unter Skalierbare Überwachung im folgenden Abschnitt).

Eingebettete Handlungskapazität

Die Arbeit im Bereich der KI und der Ausrichtung erfolgt weitgehend im Rahmen von Formalismen. Die bestehenden Formalismen gehen davon aus, dass der Algorithmus eines KI-Akteurs außerhalb der physischen Umgebung ausgeführt wird (d. h. nicht physisch in diese eingebettet ist). Eingebettete Handlungskapazität^[73]^[120] ist ein weiterer wichtiger Forschungsstrang, der versucht, Probleme zu lösen, die sich aus der Diskrepanz zwischen solchen theoretischen Rahmen und realen Akteuren ergeben, die wir herstellen könnten.

Ein Beispiel: Selbst wenn das Problem der skalierbaren Überwachung gelöst ist, könnte ein Akteur, der sich Zugang zu dem Computer verschaffen kann, auf dem er läuft, einen Anreiz haben, seine Belohnungsfunktion zu manipulieren, um viel mehr Belohnung zu erhalten, als seine menschlichen Überwacher ihm zugestehen.^[121] Die Liste von Beispielen für Spezifizikationsumgehungen der DeepMind-Forscherin Victoria Krakovna enthält den Fall eines Algorithmus, der gelernt hat, die Datei mit seinem Ziel-Output zu löschen, so dass er dafür belohnt wurde, nichts zu tun.^[36] Diese Klasse von Problemen wurde mit Hilfe von Einflussdiagrammen formalisiert.^[121]

Forscher von der Oxford University und DeepMind argumentieren, dass ein solches problematisches Verhalten in fortgeschrittenen Systemen sehr wahrscheinlich ist und dass fortgeschrittene Systeme danach streben würden, die Kontrolle über ihr Belohnungssignal unbegrenzt und sicher zu behalten.^[122] Sie schlagen eine Reihe von möglichen Ansätzen vor, um dieses Problem zu lösen.

Öffentlicher Diskurs und Politik

Siehe auch: Regulierung künstlicher Intelligenz

Eine Reihe von Regierungen und Vertragsgemeinschaften haben Erklärungen abgegeben, in denen sie die Bedeutung der KI-Ausrichtung betonen.

Im September 2021 gab der Generalsekretär der Vereinten Nationen eine Erklärung ab, in der er dazu aufrief, KI zu regulieren, um sicherzustellen, dass sie „nach den gemeinsamen globalen Werten ausgerichtet ist“.^[123]

Im selben Monat veröffentlichte die VR China ethische Richtlinien für den Einsatz von KI in China. Den Richtlinien zufolge müssen Forscher sicherstellen, dass KI geteilten menschlichen Werten entspricht, stets unter menschlicher Kontrolle steht und die öffentliche Sicherheit nicht gefährdet.^[124]

Ebenfalls im September 2021 veröffentlichte das Vereinigte Königreich seine auf zehn Jahre angelegte Nationale KI-Strategie,^[125] in der es heißt, dass die britische Regierung „das langfristige Risiko einer nicht ausgerichteten allgemeinen künstlichen Intelligenz und die unvorhersehbaren Veränderungen, die sie für… die Welt bedeuten würde, ernst nimmt.“^[126] Die Strategie beschreibt Maßnahmen zur Bewertung langfristiger KI-Risiken, einschließlich katastrophaler Risiken.^[127]

Im März 2021 erklärte die “US National Security Commission on Artificial Intelligence”, dass „Fortschritte auf dem Feld der KI ... zu Wendepunkten oder Sprüngen in deren Fähigkeiten führen könnten. Solche Fortschritte könnten auch neue Bedenken und Risiken mit sich bringen und neue Richtlinien, Empfehlungen und technische Fortschritte erforderlich machen, um sicherzustellen, dass die Systeme nach Zielen und Werten, einschließlich Sicherheit, Robustheit und Vertrauenswürdigkeit, ausgerichtet sind. Die USA sollten ... sicherstellen, dass KI-Systeme und deren Einsatz nach unseren Zielen und Werten ausgerichtet sind.“^[128]

Siehe auch

Literatur

Russell, Stuart J., Norvig, Peter: Artificial intelligence: A modern approach (4. Ausgabe). Pearson, 2020, ISBN 978-1-292-40113-3, S. 31-34.
Russell, Stuart J.: Human compatible: Artificial intelligence and the problem of control. Penguin Random House, 2020, ISBN 9780525558637.
Christian, Brian: The alignment problem: Machine learning and human values. W. W. Norton & Company, 2020, ISBN 978-0-393-86833-3.
Bostrom, Nick: Superintelligenz: Szenarien einer kommenden Revolution (5. Auflage), Suhrkamp Wissenschaft Hauptprogramm, 2023, ISBN ISBN 978-3-518-58684-6. (Originaltitel: „Superintelligence: Paths, Dangers, Strategies.“, deutsche Übersetzung)

Einzelnachweise

↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4. Ausgabe). Pearson. pp. 31–34. ISBN 978-1-292-40113-3. OCLC 1303900751. Archiviert (Memento vom 15. Juli 2022 im Internet Archive) vom Original am 15. Juli, 2022. Abgerufen am 12. September, 2022.
↑ ^a ^b ^c ^d ^e Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar, 2023). "The alignment problem from a deep learning perspective". arXiv:2209.00626 [cs.AI].
↑ ^a ^b ^c ^d ^e ^f Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14. Februar, 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Abgerufen am 21. Juli, 2022.
↑ Zhuang, Simon; Hadfield-Menell, Dylan (2020). "Consequences of Misaligned AI". Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März, 2023.
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l Carlsmith, Joseph (16. Juni, 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 [cs.CY].
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915.
↑ ^a ^b ^c ^d ^e ^f Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archiviert vom Original am 10. Februar, 2023. Abgerufen am 10. Februar, 2022.
↑ ^a ^b ^c ^d Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni, 2022). "Goal Misgeneralization in Deep Reinforcement Learning". Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März, 2023.
↑ ^a ^b ^c Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].
↑ ^a ^b Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August, 2021). "OpenAI Codex". OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli, 2022.
↑ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September, 2013). "Reinforcement learning in robotics: A survey". The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober, 2022. Abgerufen am 12. September, 2022.
↑ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1. März, 2023). "Reward (Mis)design for autonomous driving". Artificial Intelligence. 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.
↑ Stray, Jonathan (2020). "Aligning AI Optimization to Community Well-Being". International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
↑ Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 1010. ISBN 978-0-13-604259-4.
↑ Smith, Craig S. "Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat". Forbes. Abgerufen am 4. Mai 2023.
↑ Future of Life Institute (11. August, 2017). "Asilomar AI Principles". Future of Life Institute. Archiviert vom Original am 10. Oktober, 2022. Abgerufen am 18 Juli, 2022. Die KI - Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet. Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai, 2022. Abgerufen am 12. September, 2022. “Die [UN] könnten zudem KI - Regulationen fördern, um die Ausrichtung nach gemeinsamen globalen Werten sicherzustellen.”
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). "Concrete Problems in AI Safety". arXiv:1606.06565 [cs.AI].
↑ ^a ^b ^c ^d Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27. September, 2018). "Building safe artificial intelligence: specification, robustness, and assurance". DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.
↑ ^a ^b Rorvig, Mordechai (14. April, 2022). "Researchers Gain New Understanding From Simple AI". Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.
↑ Doshi-Velez, Finale; Kim, Been (2. März, 2017). "Towards A Rigorous Science of Interpretable Machine Learning". arXiv:1702.08608 [stat.ML].
↑ Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). "Research Priorities for Robust and Beneficial Artificial Intelligence". AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September, 2022.
↑ ^a ^b Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "A survey of preference-based reinforcement learning methods". Journal of Machine Learning Research. 18 (136): 1–46.
↑ ^a ^b Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep reinforcement learning from human preferences". Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4.
↑ ^a ^b ^c ^d ^e ^f Heaven, Will Douglas (27. Januar, 2022). "The new version of GPT-3 is much better behaved (and should be less toxic)". MIT Technology Review. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
↑ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März, 2022). "Taxonomy of Machine Learning Safety: A Survey and Primer". arXiv:2106.04823 [cs.LG].
↑ Clifton, Jesse (2020). "Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda". Center on Long-Term Risk. Archiviert (Memento vom 1. Januar 2023 im Internet Archive) vom Original am 1. Januar, 2023. Abgerufen am 18. Juli 2022.
↑ Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). "Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society". Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober, 2022. Abgerufen am 12. September, 2022.
↑ Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). "AI Safety Needs Social Scientists". Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.
↑ ^a ^b Wiener, Norbert (6. Mai, 1960). "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers". Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober, 2022. Abgerufen am 12. September, 2022.
↑ ^a ^b ^c ^d Gabriel, Iason (1. September, 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.
↑ The Ezra Klein Show (4. Juni, 2021). "If 'All Models Are Wrong,' Why Do We Give Them So Much Power?". The New York Times. ISSN 0362-4331. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar, 2023. Abgerufen am 13. März 2023.
↑ ^a ^b Johnson, Steven; Iziev, Nikita (15. April, 2022). "A.I. Is Mastering Language. Should We Trust What It Says?". The New York Times. ISSN 0362-4331. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November, 2022. Abgerufen am 18. Juli 2022.
↑ OpenAI. "Developing safe & responsible AI". Abgerufen am 13. März 2023.
↑ ^a ^b ^c ^d ^e ^f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16. Juni, 2022). "Unsolved Problems in ML Safety". arXiv:2109.13916 [cs.LG].
↑ Russell, Stuart J.; Norvig, Peter (2022). Artificial intelligence: a modern approach (4. Ausgabe). Pearson. pp. 4–5. ISBN 978-1-292-40113-3. OCLC 1303900751.
↑ ^a ^b ^c ^d ^e Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). "Specification gaming: the flip side of AI ingenuity". Deepmind. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 26. August, 2022.
↑ Manheim, David; Garrabrant, Scott (2018). "Categorizing Variants of Goodhart's Law". arXiv:1803.04585 [cs.AI].
↑ Specification gaming examples in AI - master list - Google Drive. Abgerufen am 14. Juli 2023.
↑ Gabriel, Iason (1. September, 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.
↑ ^a ^b Amodei, Dario; Christiano, Paul; Ray, Alex (13. Juni, 2017). "Learning from Human Preferences". OpenAI. Archiviert vom Original am 3. Januar, 2021. Abgerufen am 21. Juli 2022.
↑ ^a ^b ^c Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:10.18653/v1/2022.acl-long.229. S2CID 237532606. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September, 2022.
↑ ^a ^b ^c Naughton, John (2. Oktober, 2021). "The truth about artificial intelligence? It isn't that honest". The Observer. ISSN 0029-7712. Archiviert (Memento vom 13. Februar 2023 im Internet Archive) vom Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.
↑
Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar, 2022). "Survey of Hallucination in Natural Language Generation". ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. abgerufen am 14. Oktober 2022.
- Else, Holly (12. Januar, 2023). "Abstracts written by ChatGPT fool scientists". Nature. 613 (7944): 423. Bibcode:2023Natur.613..423E. doi:10.1038/d41586-023-00056-7. PMID 36635510. S2CID 255773668.
↑ ^a ^b ^c ^d ^e ^f ^g Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12. Juli, 2022). "On the Opportunities and Risks of Foundation Models". Stanford CRFM. arXiv:2108.07258.
↑ Russell, Stuart. "Of Myths and Moonshine". Edge.org. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original on 10. Februar, 2023. Abgerufen am 19. Juli, 2022.
↑ Tasioulas, John (2019). "First Steps Towards an Ethics of Robots and Artificial Intelligence". Journal of Practical Ethics. 7 (1): 61–95.
↑ Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5. November, 2021). "Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest". The Wall Street Journal. ISSN 0099-9660. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar, 2023. Abgerufen am 19. Juli, 2022.
↑ Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Bericht). Center for Business and Human Rights, NYU. Archiviert (Memento vom 1. Februar 2023 im Internet Archive) aus dem Original am 1. Februar 2023. Abgerufen am 12. September, 2022.
↑ Shepardson, David (24. Mai, 2018). "Uber disabled emergency braking in self-driving car: U.S. agency". Reuters. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 20. Juli, 2022.
↑ Baum, Seth (1. Januar, 2021). "2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy". Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 20. Juli, 2022.
↑ ^a ^b Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (26. Oktober, 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. arXiv:2206.07682. ISSN 2835-8856.
↑ ^a ^b Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.
↑
Dominguez, Daniel (19. Mai, 2022). "DeepMind Introduces Gato, a New Generalist AI Agent". InfoQ. Archiviert vom Original am10. Februar, 2023. Abgerufen am 9. September, 2022.
- Edwards, Ben (26. April, 2022). "Adept's AI assistant can browse, search, and use web apps like a human". Ars Technica. Archiviert (Memento vom 17. Januar 2023 im Internet Archive) vom Original am 17. Januar, 2023. Abgerufen am 9. September, 2022.
↑ Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli, 2018). "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts". Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.
↑ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August, 2021). "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers". Journal of Artificial Intelligence Research. 71. doi:10.1613/jair.1.12895. ISSN 1076-9757. S2CID 233740003. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.
↑ Future of Life Institute (22. März, 2023). "Pause Giant AI Experiments: An Open Letter". Abgerufen am 20. April, 2023.
↑ ^a ^b Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (3. April, 2023). "Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark". Proceedings of the 40th International Conference on Machine Learning. PMLR. arXiv:2304.03279.
↑ ^a ^b ^c ^d Perez, Ethan; Ringer, Sam; Lukošiūtė, Kamilė; Nguyen, Karina; Chen, Edwin; Heiner, Scott; Pettit, Craig; Olsson, Catherine; Kundu, Sandipan; Kadavath, Saurav; Jones, Andy; Chen, Anna; Mann, Ben; Israel, Brian; Seethor, Bryan (19. Dezember, 2022). "Discovering Language Model Behaviors with Model-Written Evaluations". arXiv:2212.09251 [cs.CL].
↑ Orseau, Laurent; Armstrong, Stuart (25. Juni, 2016). "Safely interruptible agents". Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. Arlington, Virginia, USA: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
↑ ^a ^b Leike, Jan; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrew; Orseau, Laurent; Legg, Shane (28. November, 2017). "AI Safety Gridworlds". arXiv:1711.09883 [cs.LG].
↑ ^a ^b ^c ^d Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (19. August, 2017). "The off-switch game". Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.
↑ ^a ^b ^c ^d Turner, Alexander Matt; Smith, Logan Riggs; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (2021). "Optimal policies tend to seek power". Advances in neural information processing systems.
↑ Turner, Alexander Matt; Tadepalli, Prasad (2022). "Parametrically retargetable decision-makers tend to seek power". Advances in neural information processing systems.
↑ ^a ^b ^c ^d ^e Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (1. Ausgabe). USA: Oxford University Press, Inc. ISBN 978-0-19-967811-2.
↑ Muehlhauser, Luke (29. Januar, 2016). "Sutskever on Talking Machines". Luke Muehlhauser. Archiviert (Memento vom 27. September 2022 im Internet Archive) vom Original am 27. September, 2022. Abgerufen am 26. August, 2022.
↑ "Statement on AI Risk | CAIS". www.safe.ai. Abgerufen am 17. Juli, 2023.
↑ Shanahan, Murray (2015). The technological singularity. Cambridge, Massachusetts. ISBN 978-0-262-33182-1. OCLC 917889148.
↑ Rossi, Francesca. "How do you teach a machine to be moral?". The Washington Post. ISSN 0190-8286. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.
↑ Aaronson, Scott (17. Juni, 2022). "OpenAI!". Shtetl-Optimized. Archiviert (Memento vom 27. August 2022 im Internet Archive) vom Original 27. August, 2022. Abgerufen am 12. September, 2022.
↑ Selman, Bart, Intelligence Explosion: Science or Fiction? (PDF), archived (Memento vom 31. Mai 2022 im Internet Archive) (PDF) aus dem Original am 31. Mai, 2022, abgerufen am 12. September, 2022
↑ McAllester (10. August, 2014). "Friendly AI and the Servant Mission". Machine Thoughts. Archiviert (Memento vom 28. September 2022 im Internet Archive) vom Original am 28. September, 2022. Abgerufen am 12. September, 2022.
↑ Schmidhuber, Jürgen (6. März, 2015). "I am Jürgen Schmidhuber, AMA!" (Reddit Comment). r/MachineLearning. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
↑ ^a ^b ^c ^d ^e Everitt, Tom; Lea, Gary; Hutter, Marcus (21. Mai, 2018). "AGI Safety Literature Review". arXiv:1805.01109 [cs.AI].
↑ Shane (31. August, 2009). "Funding safe AGI". vetta project. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September, 2022.
↑ Horvitz, Eric (27. Juni, 2016). "Reflections on Safety and Artificial Intelligence" (PDF). Eric Horvitz. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) (PDF) vom Original am 10. Oktober 2022. Abgerufen am 20. April, 2020.
↑ Chollet, François (8. Dezember, 2018). "The implausibility of intelligence explosion". Medium. Archiviert (Memento vom 22. März 2021 im Internet Archive) aus dem Original am 22. März 2021. Abgerufen am 26. August, 2022.
↑ Marcus, Gary (6. Juni, 2022). "Artificial General Intelligence Is Not as Imminent as You Might Think". Scientific American. Archiviert (Memento vom 15. September 2022 im Internet Archive) vom Original am 15. September, 2022. Abgerufen am 26. August, 2022.
↑ Barber, Lynsey (31. Juli, 2016). "Phew! Facebook's AI chief says intelligent machines are not a threat to humanity". CityAM. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August, 2022. Abgerufen am 26. August, 2022.
↑ Harris, Jeremie (16. Juni, 2021). "The case against (worrying about) existential risk from AI". Medium. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August, 2022. Abgerufen am 26. August, 2022.
↑ Ng, Andrew Y.; Russell, Stuart J. (29. Juni, 2000). "Algorithms for Inverse Reinforcement Learning". Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.
↑ Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca (2016). "Cooperative inverse reinforcement learning". Advances in neural information processing systems. Vol. 29. Curran Associates, Inc.
↑ Mindermann, Soren; Armstrong, Stuart (2018). "Occam's razor is insufficient to infer the preferences of irrational agents". Proceedings of the 32nd international conference on neural information processing systems. NIPS'18. Red Hook, NY, USA: Curran Associates Inc. pp. 5603–5614.
↑ Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. "Preference Learning". Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.
↑ Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober, 2022). "Scaling Laws for Reward Model Overoptimization". arXiv:2210.10760 [cs.LG].
↑ Anderson, Martin (5. April, 2022). "The Perils of Using Quotations to Authenticate NLG Content". Unite.AI. Archived (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar, 2023. Abgerufen am 21. Juli 2022.
↑ ^a ^b Wiggers, Kyle (5. Februar, 2022). "Despite recent progress, AI-powered chatbots still have a long way to go". VentureBeat. Archived (Memento vom 23. Juli 2022 im Internet Archive) aus dem Original am 23. Juli, 2022. Abgerufen am 23. Juli 2022.
↑ Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24. Juli, 2021). "Aligning AI With Shared Human Values". International Conference on Learning Representations. arXiv:2008.02275.
↑
Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7. Februar, 2022). "Red Teaming Language Models with Language Models". arXiv:2202.03286 [cs.CL].
- Bhattacharyya, Sreejani (14. Februar, 2022). "DeepMind's "red teaming" language models with language models: What is it?". Analytics India Magazine. Archived (Memento vom 13. Februar 2023 im Internet Archive) aus dem Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.
↑ Anderson, Michael; Anderson, Susan Leigh (15. Dezember, 2007). "Machine Ethics: Creating an Ethical Intelligent Agent". AI Magazine. 28 (4): 15. doi:10.1609/aimag.v28i4.2065. ISSN 2371-9621. S2CID 17033332. Abgerufen am 14. März 2023.
↑ MacAskill, William (2022). What we owe the future. New York, NY. ISBN 978-1-5416-1862-6. OCLC 1314633519. Archiviert (Memento vom 14. September 2022 im Internet Archive) vom Original am 14. September, 2022. Abgerufen am 12. September, 2022.
↑ ^a ^b Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27. September, 2021). "Recursively Summarizing Books with Human Feedback". arXiv:2109.10862 [cs.CL].
↑ Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions". 2022 IEEE Symposium on Security and Privacy (SP). 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. pp. 754–768. arXiv:2108.09293. doi:10.1109/SP46214.2022.9833571. ISBN 978-1-6654-1316-9. S2CID 245220588.
↑ Irving, Geoffrey; Amodei, Dario (3. Mai, 2018). "AI Safety via Debate". OpenAI. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
↑ ^a ^b Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19. Oktober, 2018). "Supervising strong learners by amplifying weak experts". arXiv:1810.08575 [cs.LG].
↑ Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Genetic Programming Theory and Practice XVII. Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.
↑ Wiblin, Robert (2. Oktober, 2018). "Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems" (Podcast). 80,000 hours. No. 44. Archiviert (Memento vom 14. Dezember 2022 im Internet Archive) vom Original am 14. Dezember, 2022. Abgerufen am 23. Juli 2022.
↑ Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities". Artificial Life. 26 (2): 274–306. doi:10.1162/artl_a_00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober, 2022. Abgerufen am 12. September, 2022.
↑ ^a ^b Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19. November, 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871.
↑ ^a ^b Leike, Jan; Schulman, John; Wu, Jeffrey (24. August, 2022). "Our approach to alignment research". OpenAI. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar, 2023. Abgerufen am 9. September, 2022.
↑ Wiggers, Kyle (23. September, 2021). "OpenAI unveils model that can summarize books of any length". VentureBeat. Archiviert (Memento vom 23. Juli 2022 im Internet Archive) vom Original am 23. July, 2022. Abgerufen am 23. Juli 2022.
↑
Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13. Juni, 2022). "Self-critiquing models for assisting human evaluators". arXiv:2206.05802 [cs.CL].
- Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15. Dezember, 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL].
↑ Moltzau, Alex (24. August, 2019). "Debating the AI Safety Debate". Towards Data Science. Archiviert (Memento vom 13. Oktober 2022 im Internet Archive) vom Original am 13. Oktober, 2022. Abgerufen am 23. Juli 2022.
↑
The Guardian (8. September, 2020). "A robot wrote this entire article. Are you scared yet, human?". The Guardian. ISSN 0261-3077. Archiviert vom Original am 8. September, 2020. Abgerufen am 23. Juli 2022.
- Heaven, Will Douglas (20. Juli, 2020). "OpenAI's new language generator GPT-3 is shockingly good—and completely mindless". MIT Technology Review. Archiviert (Memento vom 25. Juli 2020 im Internet Archive) vom Original am 25. Juli, 2020. Abgerufen am 23. Juli 2022.
↑ ^a ^b Wiggers, Kyle (20. September, 2021). "Falsehoods more likely with large language models". VentureBeat. Archiviert (Memento vom 4. August 2022 im Internet Archive) vom Original am 4. August, 2022. Abgerufen am 23. Juli 2022.
↑ ^a ^b Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13. Oktober, 2021). "Truthful AI: Developing and governing AI that does not lie". arXiv:2110.06674 [cs.CY].
↑
Alford, Anthony (13. Juli, 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
- Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar, 2022). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". arXiv:2112.11446.
↑
Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1. Juni, 2022). "WebGPT: Browser-assisted question-answering with human feedback". arXiv:2112.09332 [cs.CL].
- Kumar, Nitish (23. Dezember, 2021). "OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser". MarkTechPost. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
- Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, John; Song, Francis; Chadwick, Martin; Glaese, Mia; Young, Susannah; Campbell-Gillingham, Lucy; Irving, Geoffrey; McAleese, Nat (21. März, 2022). "Teaching language models to support answers with verified quotes". DeepMind. arXiv:2203.11147. Archiviert aus dem Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.
↑ Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Kernion, Jackson; Ndousse, Kamal (9. Dezember, 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL].
↑ Cox, Joseph (15. März, 2023). "GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human". Vice. Abgerufen am 10. April, 2023.
↑ Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März, 2021). "Alignment of Language Agents". DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
↑ McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember, 2006). "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955". AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
↑
"'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power". Fortune. Abgerufen am 4. Mai 2023.
- "Yes, We Are Worried About the Existential Risk of Artificial Intelligence". MIT Technology Review. Abgerufen am 4. Mai 2023.
↑ Ornes, Stephen (18. November, 2019). "Playing Hide-and-Seek, Machines Invent New Tools". Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 26. August, 2022.
↑ Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17. September, 2019). "Emergent Tool Use from Multi-Agent Interaction". OpenAI. Archiviert (Memento vom 25. September 2022 im Internet Archive) vom Original am 25. September, 2022. Abgerufen am 26. August, 2022.
↑ Shermer, Michael (1. März, 2017). "Artificial Intelligence Is Not a Threat—Yet". Scientific American. Archiviert (Memento vom 1. Dezember 2017 im Internet Archive) vom Original am 1. Dezember, 2017. Abgerufen am 26. August, 2022.
↑
Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (22. Juli, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL].
- Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Stephen; Steigerwald, Richie; Strouse, D. J.; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (25. Oktober, 2022). "In-context Reinforcement Learning with Algorithm Distillation". arXiv:2210.14215 [cs.LG].
↑ ^a ^b ^c Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (2. November, 2022). "Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals". Medium. arXiv:2210.01790. Abgerufen am 2. April, 2023.
↑ ^a ^b Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (1. Dezember, 2021). "Risks from Learned Optimization in Advanced Machine Learning Systems". arXiv:1906.01820.
↑ Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). "Towards risk-aware artificial intelligence and machine learning systems: An overview". Decision Support Systems. 159: 113800. doi:10.1016/j.dss.2022.113800. S2CID 248585546.
↑ Demski, Abram; Garrabrant, Scott (6. Oktober, 2020). "Embedded Agency". arXiv:1902.09469 [cs.AI].
↑ ^a ^b Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (6. September, 2019). "Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings". arXiv:1902.09980 [cs.AI].
↑ Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August, 2022). "Advanced artificial agents intervene in the provision of reward". AI Magazine. 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 6. September, 2022.
↑ "UN Secretary-General's report on 'Our Common Agenda'" (Memento vom 16. Februar 2023 im Internet Archive). 2021. p. 63. Archiviert vom Original am 16. Februar, 2023. Der Vertrag könnte zudem Regulationen für KI befördern, um sicherzustellen, dass sie nach gemeinsamen globalen Werten ausgerichtet ist.
↑ The National New Generation Artificial Intelligence Governance Specialist Committee (12. Oktober, 2021) [2021-09-25]. "Ethical Norms for New Generation Artificial Intelligence Released". Übersetzt von Center for Security and Emerging Technology. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023.
↑ Richardson, Tim (22. September, 2021). "UK publishes National Artificial Intelligence Strategy". The Register. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 14. November, 2021.
↑ "The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. Archiviert vom Original am 10. Februar, 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”
↑ "The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. actions 9 and 10 of the section "Pillar 3 – Governing AI Effectively". Archiviert vom Original am 10. Februar, 2023.
↑ NSCAI Final Report (PDF). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom Original (Memento vom 15. Februar 2023 im Internet Archive) am 15. Februar 2023. Abgerufen am 17. Oktober 2022.

[:0-1] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4. Ausgabe). Pearson. pp. 31–34. ISBN 978-1-292-40113-3. OCLC 1303900751. Archiviert (Memento vom 15. Juli 2022 im Internet Archive) vom Original am 15. Juli, 2022. Abgerufen am 12. September, 2022.

[:3-2] Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar, 2023). "The alignment problem from a deep learning perspective". arXiv:2209.00626 [cs.AI].

[:4-3] ↑ ^a ^b ^c ^d ^e ^f Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14. Februar, 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Abgerufen am 21. Juli, 2022.

[4] Zhuang, Simon; Hadfield-Menell, Dylan (2020). "Consequences of Misaligned AI". Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März, 2023.

[:5-5] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l Carlsmith, Joseph (16. Juni, 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 [cs.CY].

[:6-6] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915.

[:7-7] ↑ ^a ^b ^c ^d ^e ^f Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archiviert vom Original am 10. Februar, 2023. Abgerufen am 10. Februar, 2022.

[:8-8] Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni, 2022). "Goal Misgeneralization in Deep Reinforcement Learning". Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März, 2023.

[:9-9] Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].

[:10-10] Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August, 2021). "OpenAI Codex". OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli, 2022.

[11] Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September, 2013). "Reinforcement learning in robotics: A survey". The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober, 2022. Abgerufen am 12. September, 2022.

[12] Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1. März, 2023). "Reward (Mis)design for autonomous driving". Artificial Intelligence. 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.

[13] Stray, Jonathan (2020). "Aligning AI Optimization to Community Well-Being". International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.

[:11-14] Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 1010. ISBN 978-0-13-604259-4.

[15] Smith, Craig S. "Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat". Forbes. Abgerufen am 4. Mai 2023.

[16] Future of Life Institute (11. August, 2017). "Asilomar AI Principles". Future of Life Institute. Archiviert vom Original am 10. Oktober, 2022. Abgerufen am 18 Juli, 2022. Die KI - Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet. Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai, 2022. Abgerufen am 12. September, 2022. “Die [UN] könnten zudem KI - Regulationen fördern, um die Ausrichtung nach gemeinsamen globalen Werten sicherzustellen.”

[:12-17] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). "Concrete Problems in AI Safety". arXiv:1606.06565 [cs.AI].

[:1-18] Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27. September, 2018). "Building safe artificial intelligence: specification, robustness, and assurance". DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.

[:2-19] Rorvig, Mordechai (14. April, 2022). "Researchers Gain New Understanding From Simple AI". Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.

[20] Doshi-Velez, Finale; Kim, Been (2. März, 2017). "Towards A Rigorous Science of Interpretable Machine Learning". arXiv:1702.08608 [stat.ML].

[21] Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). "Research Priorities for Robust and Beneficial Artificial Intelligence". AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September, 2022.

[:13-22] Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "A survey of preference-based reinforcement learning methods". Journal of Machine Learning Research. 18 (136): 1–46.

[:14-23] Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep reinforcement learning from human preferences". Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4.

[:15-24] ↑ ^a ^b ^c ^d ^e ^f Heaven, Will Douglas (27. Januar, 2022). "The new version of GPT-3 is much better behaved (and should be less toxic)". MIT Technology Review. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.

[25] Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März, 2022). "Taxonomy of Machine Learning Safety: A Survey and Primer". arXiv:2106.04823 [cs.LG].

[26] Clifton, Jesse (2020). "Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda". Center on Long-Term Risk. Archiviert (Memento vom 1. Januar 2023 im Internet Archive) vom Original am 1. Januar, 2023. Abgerufen am 18. Juli 2022.

[27] Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). "Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society". Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober, 2022. Abgerufen am 12. September, 2022.

[28] Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). "AI Safety Needs Social Scientists". Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.

[:16-29] Wiener, Norbert (6. Mai, 1960). "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers". Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober, 2022. Abgerufen am 12. September, 2022.

[:17-30] Gabriel, Iason (1. September, 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.

[31] The Ezra Klein Show (4. Juni, 2021). "If 'All Models Are Wrong,' Why Do We Give Them So Much Power?". The New York Times. ISSN 0362-4331. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar, 2023. Abgerufen am 13. März 2023.

[:18-32] Johnson, Steven; Iziev, Nikita (15. April, 2022). "A.I. Is Mastering Language. Should We Trust What It Says?". The New York Times. ISSN 0362-4331. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November, 2022. Abgerufen am 18. Juli 2022.

[33] OpenAI. "Developing safe & responsible AI". Abgerufen am 13. März 2023.

[:19-34] ↑ ^a ^b ^c ^d ^e ^f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16. Juni, 2022). "Unsolved Problems in ML Safety". arXiv:2109.13916 [cs.LG].

[35] Russell, Stuart J.; Norvig, Peter (2022). Artificial intelligence: a modern approach (4. Ausgabe). Pearson. pp. 4–5. ISBN 978-1-292-40113-3. OCLC 1303900751.

[:20-36] Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). "Specification gaming: the flip side of AI ingenuity". Deepmind. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 26. August, 2022.

[37] Manheim, David; Garrabrant, Scott (2018). "Categorizing Variants of Goodhart's Law". arXiv:1803.04585 [cs.AI].

[38] Specification gaming examples in AI - master list - Google Drive. Abgerufen am 14. Juli 2023.

[39] Gabriel, Iason (1. September, 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.

[:21-40] Amodei, Dario; Christiano, Paul; Ray, Alex (13. Juni, 2017). "Learning from Human Preferences". OpenAI. Archiviert vom Original am 3. Januar, 2021. Abgerufen am 21. Juli 2022.

[:22-41] Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:10.18653/v1/2022.acl-long.229. S2CID 237532606. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September, 2022.

[:23-42] Naughton, John (2. Oktober, 2021). "The truth about artificial intelligence? It isn't that honest". The Observer. ISSN 0029-7712. Archiviert (Memento vom 13. Februar 2023 im Internet Archive) vom Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.

[43] Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar, 2022). "Survey of Hallucination in Natural Language Generation". ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. abgerufen am 14. Oktober 2022.
Else, Holly (12. Januar, 2023). "Abstracts written by ChatGPT fool scientists". Nature. 613 (7944): 423. Bibcode:2023Natur.613..423E. doi:10.1038/d41586-023-00056-7. PMID 36635510. S2CID 255773668.

[44] Else, Holly (12. Januar, 2023). "Abstracts written by ChatGPT fool scientists". Nature. 613 (7944): 423. Bibcode:2023Natur.613..423E. doi:10.1038/d41586-023-00056-7. PMID 36635510. S2CID 255773668.

[:24-44] ↑ ^a ^b ^c ^d ^e ^f ^g Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12. Juli, 2022). "On the Opportunities and Risks of Foundation Models". Stanford CRFM. arXiv:2108.07258.

[45] Russell, Stuart. "Of Myths and Moonshine". Edge.org. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original on 10. Februar, 2023. Abgerufen am 19. Juli, 2022.

[46] Tasioulas, John (2019). "First Steps Towards an Ethics of Robots and Artificial Intelligence". Journal of Practical Ethics. 7 (1): 61–95.

[47] Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5. November, 2021). "Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest". The Wall Street Journal. ISSN 0099-9660. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar, 2023. Abgerufen am 19. Juli, 2022.

[48] Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Bericht). Center for Business and Human Rights, NYU. Archiviert (Memento vom 1. Februar 2023 im Internet Archive) aus dem Original am 1. Februar 2023. Abgerufen am 12. September, 2022.

[49] Shepardson, David (24. Mai, 2018). "Uber disabled emergency braking in self-driving car: U.S. agency". Reuters. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 20. Juli, 2022.

[50] Baum, Seth (1. Januar, 2021). "2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy". Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 20. Juli, 2022.

[:25-51] Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (26. Oktober, 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. arXiv:2206.07682. ISSN 2835-8856.

[:26-52] Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.

[53] Dominguez, Daniel (19. Mai, 2022). "DeepMind Introduces Gato, a New Generalist AI Agent". InfoQ. Archiviert vom Original am10. Februar, 2023. Abgerufen am 9. September, 2022.
Edwards, Ben (26. April, 2022). "Adept's AI assistant can browse, search, and use web apps like a human". Ars Technica. Archiviert (Memento vom 17. Januar 2023 im Internet Archive) vom Original am 17. Januar, 2023. Abgerufen am 9. September, 2022.

[55] Edwards, Ben (26. April, 2022). "Adept's AI assistant can browse, search, and use web apps like a human". Ars Technica. Archiviert (Memento vom 17. Januar 2023 im Internet Archive) vom Original am 17. Januar, 2023. Abgerufen am 9. September, 2022.

[54] Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli, 2018). "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts". Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.

[55] Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August, 2021). "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers". Journal of Artificial Intelligence Research. 71. doi:10.1613/jair.1.12895. ISSN 1076-9757. S2CID 233740003. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.

[56] Future of Life Institute (22. März, 2023). "Pause Giant AI Experiments: An Open Letter". Abgerufen am 20. April, 2023.

[:27-57] Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (3. April, 2023). "Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark". Proceedings of the 40th International Conference on Machine Learning. PMLR. arXiv:2304.03279.

[:28-58] Perez, Ethan; Ringer, Sam; Lukošiūtė, Kamilė; Nguyen, Karina; Chen, Edwin; Heiner, Scott; Pettit, Craig; Olsson, Catherine; Kundu, Sandipan; Kadavath, Saurav; Jones, Andy; Chen, Anna; Mann, Ben; Israel, Brian; Seethor, Bryan (19. Dezember, 2022). "Discovering Language Model Behaviors with Model-Written Evaluations". arXiv:2212.09251 [cs.CL].

[59] Orseau, Laurent; Armstrong, Stuart (25. Juni, 2016). "Safely interruptible agents". Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. Arlington, Virginia, USA: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.

[:29-60] Leike, Jan; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrew; Orseau, Laurent; Legg, Shane (28. November, 2017). "AI Safety Gridworlds". arXiv:1711.09883 [cs.LG].

[:30-61] Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (19. August, 2017). "The off-switch game". Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.

[:31-62] Turner, Alexander Matt; Smith, Logan Riggs; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (2021). "Optimal policies tend to seek power". Advances in neural information processing systems.

[63] Turner, Alexander Matt; Tadepalli, Prasad (2022). "Parametrically retargetable decision-makers tend to seek power". Advances in neural information processing systems.

[:32-64] Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (1. Ausgabe). USA: Oxford University Press, Inc. ISBN 978-0-19-967811-2.

[65] Muehlhauser, Luke (29. Januar, 2016). "Sutskever on Talking Machines". Luke Muehlhauser. Archiviert (Memento vom 27. September 2022 im Internet Archive) vom Original am 27. September, 2022. Abgerufen am 26. August, 2022.

[66] "Statement on AI Risk | CAIS". www.safe.ai. Abgerufen am 17. Juli, 2023.

[67] Shanahan, Murray (2015). The technological singularity. Cambridge, Massachusetts. ISBN 978-0-262-33182-1. OCLC 917889148.

[68] Rossi, Francesca. "How do you teach a machine to be moral?". The Washington Post. ISSN 0190-8286. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.

[69] Aaronson, Scott (17. Juni, 2022). "OpenAI!". Shtetl-Optimized. Archiviert (Memento vom 27. August 2022 im Internet Archive) vom Original 27. August, 2022. Abgerufen am 12. September, 2022.

[70] Selman, Bart, Intelligence Explosion: Science or Fiction? (PDF), archived (Memento vom 31. Mai 2022 im Internet Archive) (PDF) aus dem Original am 31. Mai, 2022, abgerufen am 12. September, 2022

[71] McAllester (10. August, 2014). "Friendly AI and the Servant Mission". Machine Thoughts. Archiviert (Memento vom 28. September 2022 im Internet Archive) vom Original am 28. September, 2022. Abgerufen am 12. September, 2022.

[72] Schmidhuber, Jürgen (6. März, 2015). "I am Jürgen Schmidhuber, AMA!" (Reddit Comment). r/MachineLearning. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.

[:33-73] Everitt, Tom; Lea, Gary; Hutter, Marcus (21. Mai, 2018). "AGI Safety Literature Review". arXiv:1805.01109 [cs.AI].

[74] Shane (31. August, 2009). "Funding safe AGI". vetta project. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September, 2022.

[75] Horvitz, Eric (27. Juni, 2016). "Reflections on Safety and Artificial Intelligence" (PDF). Eric Horvitz. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) (PDF) vom Original am 10. Oktober 2022. Abgerufen am 20. April, 2020.

[76] Chollet, François (8. Dezember, 2018). "The implausibility of intelligence explosion". Medium. Archiviert (Memento vom 22. März 2021 im Internet Archive) aus dem Original am 22. März 2021. Abgerufen am 26. August, 2022.

[77] Marcus, Gary (6. Juni, 2022). "Artificial General Intelligence Is Not as Imminent as You Might Think". Scientific American. Archiviert (Memento vom 15. September 2022 im Internet Archive) vom Original am 15. September, 2022. Abgerufen am 26. August, 2022.

[78] Barber, Lynsey (31. Juli, 2016). "Phew! Facebook's AI chief says intelligent machines are not a threat to humanity". CityAM. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August, 2022. Abgerufen am 26. August, 2022.

[79] Harris, Jeremie (16. Juni, 2021). "The case against (worrying about) existential risk from AI". Medium. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August, 2022. Abgerufen am 26. August, 2022.

[80] Ng, Andrew Y.; Russell, Stuart J. (29. Juni, 2000). "Algorithms for Inverse Reinforcement Learning". Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.

[81] Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca (2016). "Cooperative inverse reinforcement learning". Advances in neural information processing systems. Vol. 29. Curran Associates, Inc.

[82] Mindermann, Soren; Armstrong, Stuart (2018). "Occam's razor is insufficient to infer the preferences of irrational agents". Proceedings of the 32nd international conference on neural information processing systems. NIPS'18. Red Hook, NY, USA: Curran Associates Inc. pp. 5603–5614.

[83] Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. "Preference Learning". Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.

[84] Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober, 2022). "Scaling Laws for Reward Model Overoptimization". arXiv:2210.10760 [cs.LG].

[85] Anderson, Martin (5. April, 2022). "The Perils of Using Quotations to Authenticate NLG Content". Unite.AI. Archived (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar, 2023. Abgerufen am 21. Juli 2022.

[:34-86] Wiggers, Kyle (5. Februar, 2022). "Despite recent progress, AI-powered chatbots still have a long way to go". VentureBeat. Archived (Memento vom 23. Juli 2022 im Internet Archive) aus dem Original am 23. Juli, 2022. Abgerufen am 23. Juli 2022.

[87] Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24. Juli, 2021). "Aligning AI With Shared Human Values". International Conference on Learning Representations. arXiv:2008.02275.

[88] Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7. Februar, 2022). "Red Teaming Language Models with Language Models". arXiv:2202.03286 [cs.CL].
Bhattacharyya, Sreejani (14. Februar, 2022). "DeepMind's "red teaming" language models with language models: What is it?". Analytics India Magazine. Archived (Memento vom 13. Februar 2023 im Internet Archive) aus dem Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.

[91] Bhattacharyya, Sreejani (14. Februar, 2022). "DeepMind's "red teaming" language models with language models: What is it?". Analytics India Magazine. Archived (Memento vom 13. Februar 2023 im Internet Archive) aus dem Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.

[89] Anderson, Michael; Anderson, Susan Leigh (15. Dezember, 2007). "Machine Ethics: Creating an Ethical Intelligent Agent". AI Magazine. 28 (4): 15. doi:10.1609/aimag.v28i4.2065. ISSN 2371-9621. S2CID 17033332. Abgerufen am 14. März 2023.

[90] MacAskill, William (2022). What we owe the future. New York, NY. ISBN 978-1-5416-1862-6. OCLC 1314633519. Archiviert (Memento vom 14. September 2022 im Internet Archive) vom Original am 14. September, 2022. Abgerufen am 12. September, 2022.

[:35-91] Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27. September, 2021). "Recursively Summarizing Books with Human Feedback". arXiv:2109.10862 [cs.CL].

[92] Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions". 2022 IEEE Symposium on Security and Privacy (SP). 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. pp. 754–768. arXiv:2108.09293. doi:10.1109/SP46214.2022.9833571. ISBN 978-1-6654-1316-9. S2CID 245220588.

[93] Irving, Geoffrey; Amodei, Dario (3. Mai, 2018). "AI Safety via Debate". OpenAI. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.

[:36-94] Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19. Oktober, 2018). "Supervising strong learners by amplifying weak experts". arXiv:1810.08575 [cs.LG].

[95] Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Genetic Programming Theory and Practice XVII. Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.

[96] Wiblin, Robert (2. Oktober, 2018). "Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems" (Podcast). 80,000 hours. No. 44. Archiviert (Memento vom 14. Dezember 2022 im Internet Archive) vom Original am 14. Dezember, 2022. Abgerufen am 23. Juli 2022.

[97] Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities". Artificial Life. 26 (2): 274–306. doi:10.1162/artl_a_00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober, 2022. Abgerufen am 12. September, 2022.

[:37-98] Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19. November, 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871.

[:38-99] Leike, Jan; Schulman, John; Wu, Jeffrey (24. August, 2022). "Our approach to alignment research". OpenAI. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar, 2023. Abgerufen am 9. September, 2022.

[100] Wiggers, Kyle (23. September, 2021). "OpenAI unveils model that can summarize books of any length". VentureBeat. Archiviert (Memento vom 23. Juli 2022 im Internet Archive) vom Original am 23. July, 2022. Abgerufen am 23. Juli 2022.

[101] Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13. Juni, 2022). "Self-critiquing models for assisting human evaluators". arXiv:2206.05802 [cs.CL].
Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15. Dezember, 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL].

[105] Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15. Dezember, 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL].

[102] Moltzau, Alex (24. August, 2019). "Debating the AI Safety Debate". Towards Data Science. Archiviert (Memento vom 13. Oktober 2022 im Internet Archive) vom Original am 13. Oktober, 2022. Abgerufen am 23. Juli 2022.

[103] The Guardian (8. September, 2020). "A robot wrote this entire article. Are you scared yet, human?". The Guardian. ISSN 0261-3077. Archiviert vom Original am 8. September, 2020. Abgerufen am 23. Juli 2022.
Heaven, Will Douglas (20. Juli, 2020). "OpenAI's new language generator GPT-3 is shockingly good—and completely mindless". MIT Technology Review. Archiviert (Memento vom 25. Juli 2020 im Internet Archive) vom Original am 25. Juli, 2020. Abgerufen am 23. Juli 2022.

[108] Heaven, Will Douglas (20. Juli, 2020). "OpenAI's new language generator GPT-3 is shockingly good—and completely mindless". MIT Technology Review. Archiviert (Memento vom 25. Juli 2020 im Internet Archive) vom Original am 25. Juli, 2020. Abgerufen am 23. Juli 2022.

[:39-104] Wiggers, Kyle (20. September, 2021). "Falsehoods more likely with large language models". VentureBeat. Archiviert (Memento vom 4. August 2022 im Internet Archive) vom Original am 4. August, 2022. Abgerufen am 23. Juli 2022.

[:40-105] Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13. Oktober, 2021). "Truthful AI: Developing and governing AI that does not lie". arXiv:2110.06674 [cs.CY].

[106] Alford, Anthony (13. Juli, 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar, 2022). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". arXiv:2112.11446.

[112] Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar, 2022). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". arXiv:2112.11446.

[107] Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1. Juni, 2022). "WebGPT: Browser-assisted question-answering with human feedback". arXiv:2112.09332 [cs.CL].
Kumar, Nitish (23. Dezember, 2021). "OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser". MarkTechPost. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.

Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, John; Song, Francis; Chadwick, Martin; Glaese, Mia; Young, Susannah; Campbell-Gillingham, Lucy; Irving, Geoffrey; McAleese, Nat (21. März, 2022). "Teaching language models to support answers with verified quotes". DeepMind. arXiv:2203.11147. Archiviert aus dem Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.

[114] Kumar, Nitish (23. Dezember, 2021). "OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser". MarkTechPost. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.

[115] Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, John; Song, Francis; Chadwick, Martin; Glaese, Mia; Young, Susannah; Campbell-Gillingham, Lucy; Irving, Geoffrey; McAleese, Nat (21. März, 2022). "Teaching language models to support answers with verified quotes". DeepMind. arXiv:2203.11147. Archiviert aus dem Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.

[108] Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Kernion, Jackson; Ndousse, Kamal (9. Dezember, 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL].

[109] Cox, Joseph (15. März, 2023). "GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human". Vice. Abgerufen am 10. April, 2023.

[110] Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März, 2021). "Alignment of Language Agents". DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.

[111] McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember, 2006). "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955". AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.

[112] "'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power". Fortune. Abgerufen am 4. Mai 2023.
"Yes, We Are Worried About the Existential Risk of Artificial Intelligence". MIT Technology Review. Abgerufen am 4. Mai 2023.

[121] "Yes, We Are Worried About the Existential Risk of Artificial Intelligence". MIT Technology Review. Abgerufen am 4. Mai 2023.

[113] Ornes, Stephen (18. November, 2019). "Playing Hide-and-Seek, Machines Invent New Tools". Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 26. August, 2022.

[114] Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17. September, 2019). "Emergent Tool Use from Multi-Agent Interaction". OpenAI. Archiviert (Memento vom 25. September 2022 im Internet Archive) vom Original am 25. September, 2022. Abgerufen am 26. August, 2022.

[115] Shermer, Michael (1. März, 2017). "Artificial Intelligence Is Not a Threat—Yet". Scientific American. Archiviert (Memento vom 1. Dezember 2017 im Internet Archive) vom Original am 1. Dezember, 2017. Abgerufen am 26. August, 2022.

[116] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (22. Juli, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL].
Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Stephen; Steigerwald, Richie; Strouse, D. J.; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (25. Oktober, 2022). "In-context Reinforcement Learning with Algorithm Distillation". arXiv:2210.14215 [cs.LG].

[126] Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Stephen; Steigerwald, Richie; Strouse, D. J.; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (25. Oktober, 2022). "In-context Reinforcement Learning with Algorithm Distillation". arXiv:2210.14215 [cs.LG].

[:41-117] Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (2. November, 2022). "Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals". Medium. arXiv:2210.01790. Abgerufen am 2. April, 2023.

[:42-118] Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (1. Dezember, 2021). "Risks from Learned Optimization in Advanced Machine Learning Systems". arXiv:1906.01820.

[119] Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). "Towards risk-aware artificial intelligence and machine learning systems: An overview". Decision Support Systems. 159: 113800. doi:10.1016/j.dss.2022.113800. S2CID 248585546.

[120] Demski, Abram; Garrabrant, Scott (6. Oktober, 2020). "Embedded Agency". arXiv:1902.09469 [cs.AI].

[:43-121] Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (6. September, 2019). "Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings". arXiv:1902.09980 [cs.AI].

[122] Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August, 2022). "Advanced artificial agents intervene in the provision of reward". AI Magazine. 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 6. September, 2022.

[123] "UN Secretary-General's report on 'Our Common Agenda'" (Memento vom 16. Februar 2023 im Internet Archive). 2021. p. 63. Archiviert vom Original am 16. Februar, 2023. Der Vertrag könnte zudem Regulationen für KI befördern, um sicherzustellen, dass sie nach gemeinsamen globalen Werten ausgerichtet ist.

[124] The National New Generation Artificial Intelligence Governance Specialist Committee (12. Oktober, 2021) [2021-09-25]. "Ethical Norms for New Generation Artificial Intelligence Released". Übersetzt von Center for Security and Emerging Technology. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023.

[125] Richardson, Tim (22. September, 2021). "UK publishes National Artificial Intelligence Strategy". The Register. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar, 2023. Abgerufen am 14. November, 2021.

[126] "The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. Archiviert vom Original am 10. Februar, 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”

[127] "The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. actions 9 and 10 of the section "Pillar 3 – Governing AI Effectively". Archiviert vom Original am 10. Februar, 2023.

[128] NSCAI Final Report (PDF). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom Original (Memento vom 15. Februar 2023 im Internet Archive) am 15. Februar 2023. Abgerufen am 17. Oktober 2022.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]

@@ Zeile 1: / Zeile 1: @@
-Innerhalb der Forschung zur [[Künstliche Intelligenz|Künstlichen Intelligenz]] (KI) zielt die '''KI-Ausrichtungsforschung''' darauf ab, KI-Systeme in Richtung menschlicher Ziele, Präferenzen oder ethischer Grundsätze zu lenken. Ein KI-System gilt als ''ausgerichtet'', wenn es die beabsichtigten Ziele fördert. Ein fehlausgerichtetes KI-System ist fähig, bestimmte Ziele zu erreichen, nicht aber die Beabsichtigten.<ref name=":0">Russell, Stuart J.; Norvig, Peter (2020). ''[https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html Artificial intelligence: A modern approach]'' (4. Ausgabe). Pearson. pp. 31–34. ISBN [[:en:Special:BookSources/978-1-292-40113-3|978-1-292-40113-3]]. OCLC [https://www.worldcat.org/oclc/1303900751 1303900751]. [https://web.archive.org/web/20220715195054/https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html Archiviert] vom Original am 15. Juli, 2022. Abgerufen am 12. September, 2022.</ref>
+Innerhalb der Forschung zur [[Künstliche Intelligenz|Künstlichen Intelligenz]] (KI) zielt die '''KI-Ausrichtungsforschung''' darauf ab, KI-Systeme in Richtung menschlicher Ziele, Präferenzen oder ethischer Grundsätze zu lenken. Ein KI-System gilt als ''ausgerichtet'', wenn es die beabsichtigten Ziele fördert. Ein fehlausgerichtetes KI-System ist fähig, bestimmte Ziele zu erreichen, nicht aber die Beabsichtigten.<ref name=":0">Russell, Stuart J.; Norvig, Peter (2020). ''[https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html Artificial intelligence: A modern approach]'' (4. Ausgabe). Pearson. pp. 31–34. ISBN [[:en:Special:BookSources/978-1-292-40113-3|978-1-292-40113-3]]. OCLC [https://www.worldcat.org/oclc/1303900751 1303900751]. {{Webarchiv |url=https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html |wayback=20220715195054 |text=Archiviert}} vom Original am 15. Juli, 2022. Abgerufen am 12. September, 2022.</ref>
 Für KI-Programmierer kann es eine Herausforderung sein, ein KI-System zielauszurichten, da sich der Versuch, die gesamte Bandbreite der gewünschten und unerwünschten Verhaltensweisen zu spezifizieren, als schwierig herausstellen kann. Um diese Schwierigkeit zu umgehen, verwenden sie in der Regel einfachere stellvertretende Ziele, wie z. B. die [[Bestärkendes Lernen|Erlangung menschlicher Zustimmung]]. Dieser Ansatz kann jedoch zu Schlupflöchern führen, notwendige Einschränkungen übersehen oder das KI-System lediglich für den Anschein einer korrekten Ausrichtung belohnen.<ref name=":0" /><ref name=":3">Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar, 2023). "The alignment problem from a deep learning perspective". [[arXiv]]:[[arxiv:2209.00626|2209.00626]] [[https://arxiv.org/archive/cs.AI cs.AI]].</ref>
@@ Zeile 6: / Zeile 6: @@
 Eine Fehlausrichtung von KI-Systemen kann zu schwerwiegenden Fehlern führen oder Schaden anrichten. Sie können Schlupflöcher finden, die es ihnen ermöglichen, ihre Stellvertreterziele zwar effizient, aber auf unbeabsichtigte, manchmal schädliche Weise zu erreichen (Belohnungs-Hacking).<ref name=":0" /><ref name=":4">Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14. Februar, 2022). ''[https://openreview.net/forum?id=JYtwGwIL7ye The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models]''. International Conference on Learning Representations. Abgerufen am 21. Juli, 2022.</ref><ref>Zhuang, Simon; Hadfield-Menell, Dylan (2020). [https://proceedings.neurips.cc/paper/2020/hash/b607ba543ad05417b8507ee86c54fcb7-Abstract.html "Consequences of Misaligned AI"]. ''Advances in Neural Information Processing Systems''. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März, 2023.</ref> KI-Systeme könnten zudem unerwünschte instrumentelle Strategien entwickeln, wie z. B. das Streben nach Macht oder ihrem eigenen Überleben, da solche Strategien ihnen helfen, ihre vorgegebenen Ziele zu erreichen.<ref name=":0" /><ref name=":5">Carlsmith, Joseph (16. Juni, 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:[[arxiv:2206.13353|2206.13353]] [[https://arxiv.org/archive/cs.CY cs.CY]].</ref><ref name=":6">Russell, Stuart J. (2020). [https://www.penguinrandomhouse.com/books/566677/human-compatible-by-stuart-russell/ ''Human compatible: Artificial intelligence and the problem of control''.] Penguin Random House. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/9780525558637|9780525558637]]. [[Online Computer Library Center|OCLC]] [https://www.worldcat.org/oclc/1113410915 1113410915].</ref> Außerdem können sie emergente Ziele entwickeln, das heißt Ziele, die unerwartet aber rein logisch folgerichtig aus dem Algorithmus und seiner originalen Zielfunktion entstehen und die schwer zu erkennen sind, bevor das System im Einsatz ist, wo es mit neuen Situationen und Datenverteilungen konfrontiert wird.<ref name=":7">Christian, Brian (2020). [https://wwnorton.co.uk/books/9780393635829-the-alignment-problem ''The alignment problem: Machine learning and human values''.] W. W. Norton & Company. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-0-393-86833-3|978-0-393-86833-3]]. [[Online Computer Library Center|OCLC]] [https://www.worldcat.org/oclc/1233266753 1233266753]. Archiviert vom Original am 10. Februar, 2023. Abgerufen am 10. Februar, 2022.</ref><ref name=":8">Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni, 2022). [https://proceedings.mlr.press/v162/langosco22a.html "Goal Misgeneralization in Deep Reinforcement Learning"]. ''Proceedings of the 39th International Conference on Machine Learning''. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März, 2023.</ref>
-Heute sind diese Probleme bereits bei bestehenden kommerziellen Systemen wie Sprachmodellen,<ref name=":0" /><ref name=":9">Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Training language models to follow instructions with human feedback". [[arXiv]]:[[arxiv:2203.02155|2203.02155]] [[https://arxiv.org/archive/cs.CL cs.CL]].</ref><ref name=":10">Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August, 2021). [https://openai.com/blog/openai-codex/ "OpenAI Codex"]. ''OpenAI''. [https://web.archive.org/web/20230203201912/https://openai.com/blog/openai-codex/ Archiviert] vom Original am 3. Februar 2023. Abgerufen am 23. Juli, 2022.</ref> Robotern,<ref>Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September, 2013). [http://journals.sagepub.com/doi/10.1177/0278364913495721 "Reinforcement learning in robotics: A survey"]. ''The International Journal of Robotics Research''. '''32''' (11): 1238–1274. [[doi]]:[[doi:10.1177/0278364913495721|10.1177/0278364913495721]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0278-3649|0278-3649]]. S2CID [https://api.semanticscholar.org/CorpusID:1932843 1932843]. [https://web.archive.org/web/20221015200445/https://journals.sagepub.com/doi/10.1177/0278364913495721 Archiviert] vom Original am 15. Oktober, 2022. Abgerufen am 12. September, 2022.</ref> autonomen Fahrzeugen<ref>Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1. März, 2023). [["Reward (Mis)design for autonomous driving"]]. ''Artificial Intelligence''. '''316''': 103829. [[doi]]:[[doi:10.1016/j.artint.2022.103829|10.1016/j.artint.2022.103829]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[0004-3702]]. S2CID [[233423198]].</ref> und Empfehlungsalgorithmen für soziale Medien zu beobachten.<ref name=":0" /><ref name=":6" /><ref>Stray, Jonathan (2020). [["Aligning AI Optimization to Community Well-Being"]]. ''International Journal of Community Well-Being''. '''3''' (4): 443–463. [[doi]]:[[doi:10.1007/s42413-020-00086-3|10.1007/s42413-020-00086-3]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:2524-5295|2524-5295]]. [[PubMed Central|PMC]] [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7610010 7610010]. [[PubMed|PMID]] [https://pubmed.ncbi.nlm.nih.gov/34723107 34723107]. S2CID [https://api.semanticscholar.org/CorpusID:226254676 226254676].</ref> Einige KI-Forscher argumentieren, dass leistungsfähigere Systeme der Zukunft stärker betroffen sein werden, da derartige Probleme zum Teil aus der hohen Leistungsfähigkeit der Systeme resultieren.<ref name=":11">Russell, Stuart; Norvig, Peter (2009). [https://aima.cs.berkeley.edu/ ''Artificial Intelligence: A Modern Approach''.] Prentice Hall. p. 1010. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-0-13-604259-4|978-0-13-604259-4]].</ref><ref name=":4" /><ref name=":3" />
+Heute sind diese Probleme bereits bei bestehenden kommerziellen Systemen wie Sprachmodellen,<ref name=":0" /><ref name=":9">Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Training language models to follow instructions with human feedback". [[arXiv]]:[[arxiv:2203.02155|2203.02155]] [[https://arxiv.org/archive/cs.CL cs.CL]].</ref><ref name=":10">Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August, 2021). [https://openai.com/blog/openai-codex/ "OpenAI Codex"]. ''OpenAI''. {{Webarchiv |url=https://openai.com/blog/openai-codex/ |wayback=20230203201912 |text=Archiviert}} vom Original am 3. Februar 2023. Abgerufen am 23. Juli, 2022.</ref> Robotern,<ref>Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September, 2013). [https://journals.sagepub.com/doi/10.1177/0278364913495721 "Reinforcement learning in robotics: A survey"]. ''The International Journal of Robotics Research''. '''32''' (11): 1238–1274. [[doi]]:[[doi:10.1177/0278364913495721|10.1177/0278364913495721]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0278-3649|0278-3649]]. S2CID [https://api.semanticscholar.org/CorpusID:1932843 1932843]. {{Webarchiv |url=https://journals.sagepub.com/doi/10.1177/0278364913495721 |wayback=20221015200445 |text=Archiviert}} vom Original am 15. Oktober, 2022. Abgerufen am 12. September, 2022.</ref> autonomen Fahrzeugen<ref>Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1. März, 2023). [["Reward (Mis)design for autonomous driving"]]. ''Artificial Intelligence''. '''316''': 103829. [[doi]]:[[doi:10.1016/j.artint.2022.103829|10.1016/j.artint.2022.103829]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[0004-3702]]. S2CID [[233423198]].</ref> und Empfehlungsalgorithmen für soziale Medien zu beobachten.<ref name=":0" /><ref name=":6" /><ref>Stray, Jonathan (2020). [["Aligning AI Optimization to Community Well-Being"]]. ''International Journal of Community Well-Being''. '''3''' (4): 443–463. [[doi]]:[[doi:10.1007/s42413-020-00086-3|10.1007/s42413-020-00086-3]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:2524-5295|2524-5295]]. [[PubMed Central|PMC]] [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7610010 7610010]. [[PubMed|PMID]] [https://pubmed.ncbi.nlm.nih.gov/34723107 34723107]. S2CID [https://api.semanticscholar.org/CorpusID:226254676 226254676].</ref> Einige KI-Forscher argumentieren, dass leistungsfähigere Systeme der Zukunft stärker betroffen sein werden, da derartige Probleme zum Teil aus der hohen Leistungsfähigkeit der Systeme resultieren.<ref name=":11">Russell, Stuart; Norvig, Peter (2009). [https://aima.cs.berkeley.edu/ ''Artificial Intelligence: A Modern Approach''.] Prentice Hall. p. 1010. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-0-13-604259-4|978-0-13-604259-4]].</ref><ref name=":4" /><ref name=":3" />
 Führende KI-Wissenschaftler wie [[Geoffrey Hinton]] und [[Stuart Russell]] haben argumentiert, dass sich die Leistung von KI übermenschlichen Fähigkeiten nähert und die menschliche Zivilisation im Falle einer Fehlausrichtung gefährden könnte.<ref>Smith, Craig S. [https://www.forbes.com/sites/craigsmith/2023/05/04/geoff-hinton-ais-most-famous-researcher-warns-of-existential-threat/ "Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat"]. ''Forbes''. Abgerufen am 4. Mai 2023.</ref><ref name=":6" />
@@ Zeile 12: / Zeile 12: @@
 Die KI-Forschungsgemeinschaft und die Vereinten Nationen haben die Forderung nach technischer Forschung und politischen Lösungen gestellt, um zu gewährleisten, dass KI-Systeme mit menschlichen Werten in Einklang gebracht werden.<ref>Future of Life Institute (11. August, 2017). [https://futureoflife.org/2017/08/11/ai-principles/ "Asilomar AI Principles"]. ''Future of Life Institute''. [https://web.archive.org/web/20221010183130/https://futureoflife.org/2017/08/11/ai-principles/ Archiviert] vom Original am 10. Oktober, 2022. Abgerufen am 18 Juli, 2022. Die KI - Prinzipien, die auf der [[Asilomar Conference on Beneficial AI]] kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet.
-Vereinte Nationen (2021). [https://www.un.org/en/content/common-agenda-report/assets/pdf/Common_Agenda_Report_English.pdf Our Common Agenda: Report of the Secretary-General] (PDF) (Report). New York: Vereinte Nationen. [https://web.archive.org/web/20220522204809/https://www.un.org/en/content/common-agenda-report/assets/pdf/Common_Agenda_Report_English.pdf Archiviert] (PDF) vom Original am 22. Mai, 2022. Abgerufen am 12. September, 2022. “Die [UN] könnten zudem KI - Regulationen fördern, um die Ausrichtung nach gemeinsamen globalen Werten sicherzustellen.”</ref>
+Vereinte Nationen (2021). [https://www.un.org/en/content/common-agenda-report/assets/pdf/Common_Agenda_Report_English.pdf Our Common Agenda: Report of the Secretary-General] (PDF) (Report). New York: Vereinte Nationen. {{Webarchiv |url=https://www.un.org/en/content/common-agenda-report/assets/pdf/Common_Agenda_Report_English.pdf |wayback=20220522204809 |text=Archiviert}} (PDF) vom Original am 22. Mai, 2022. Abgerufen am 12. September, 2022. “Die [UN] könnten zudem KI - Regulationen fördern, um die Ausrichtung nach gemeinsamen globalen Werten sicherzustellen.”</ref>
-Die ''Wertausrichtung'' von KI ist ein Teilbereich der [[KI-Sicherheit]], die sich mit der Frage beschäftigt, wie sichere KI-Systeme hergestellt werden können.<ref name=":12">Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). "Concrete Problems in AI Safety". [[arXiv]]:[[arxiv:1606.06565|1606.06565]] [[https://arxiv.org/archive/cs.AI cs.AI]].</ref> Andere Teilbereiche der KI-Sicherheit sind Robustheit, Überwachung und die Kontrolle von Fähigkeiten.<ref name=":1">Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27. September, 2018). [https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 "Building safe artificial intelligence: specification, robustness, and assurance"]. ''DeepMind Safety Research – Medium''. [https://web.archive.org/web/20230210114142/https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.</ref> Zu den Herausforderungen im Bereich der KI-Wertausrichtung zählen die Vermittlung komplexer Werte an KI-Systeme, die Entwicklung ehrlicher KI, die Entwicklung einer skalierbaren Form der Überwachung, das Prüfen und Interpretieren von KI-Modellen und die Verhinderung von unerwünscht entstehendem Verhalten wie dem Streben nach Macht. <ref name=":1" /> Die Forschung zur KI-Ausrichtung hat u. a. Verbindungen zur [[Explainable Artificial Intelligence|Interpretierbarkeitsforschung]],<ref name=":2">Rorvig, Mordechai (14. April, 2022). [https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/ "Researchers Gain New Understanding From Simple AI"]. ''Quanta Magazine''. [https://web.archive.org/web/20230210114056/https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.</ref><ref>Doshi-Velez, Finale; Kim, Been (2. März, 2017). "Towards A Rigorous Science of Interpretable Machine Learning". [[arXiv]]:[[arxiv:1702.08608|1702.08608]] [[https://arxiv.org/archive/stat.ML stat.ML]].
+Die ''Wertausrichtung'' von KI ist ein Teilbereich der [[KI-Sicherheit]], die sich mit der Frage beschäftigt, wie sichere KI-Systeme hergestellt werden können.<ref name=":12">Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). "Concrete Problems in AI Safety". [[arXiv]]:[[arxiv:1606.06565|1606.06565]] [[https://arxiv.org/archive/cs.AI cs.AI]].</ref> Andere Teilbereiche der KI-Sicherheit sind Robustheit, Überwachung und die Kontrolle von Fähigkeiten.<ref name=":1">Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27. September, 2018). [https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 "Building safe artificial intelligence: specification, robustness, and assurance"]. ''DeepMind Safety Research – Medium''. {{Webarchiv |url=https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 |wayback=20230210114142 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.</ref> Zu den Herausforderungen im Bereich der KI-Wertausrichtung zählen die Vermittlung komplexer Werte an KI-Systeme, die Entwicklung ehrlicher KI, die Entwicklung einer skalierbaren Form der Überwachung, das Prüfen und Interpretieren von KI-Modellen und die Verhinderung von unerwünscht entstehendem Verhalten wie dem Streben nach Macht.<ref name=":1" /> Die Forschung zur KI-Ausrichtung hat u. a. Verbindungen zur [[Explainable Artificial Intelligence|Interpretierbarkeitsforschung]],<ref name=":2">Rorvig, Mordechai (14. April, 2022). [https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/ "Researchers Gain New Understanding From Simple AI"]. ''Quanta Magazine''. {{Webarchiv |url=https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/ |wayback=20230210114056 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.</ref><ref>Doshi-Velez, Finale; Kim, Been (2. März, 2017). "Towards A Rigorous Science of Interpretable Machine Learning". [[arXiv]]:[[arxiv:1702.08608|1702.08608]] [[https://arxiv.org/archive/stat.ML stat.ML]].
-</ref> zur Erkennung von Anomalien, zur kalibrierten Unsicherheit,<ref name=":2" /> zur formalen Verifikation,<ref>Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). [https://ojs.aaai.org/index.php/aimagazine/article/view/2577 "Research Priorities for Robust and Beneficial Artificial Intelligence"]. ''AI Magazine''. '''36''' (4): 105–114. doi:[[doi:10.1609/aimag.v36i4.2577|10.1609/aimag.v36i4.2577]]. hdl:[https://hdl.handle.net/1721.1%2F108478 1721.1/108478]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:2371-9621|2371-9621]]. S2CID [https://api.semanticscholar.org/CorpusID:8174496 8174496]. [https://web.archive.org/web/20230202181059/https://ojs.aaai.org/index.php/aimagazine/article/view/2577 Archiviert] vom Original am 2. Februar 2023. Abgerufen am 12. September, 2022.</ref> zum Präferenzlernen,<ref name=":13">Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "A survey of preference-based reinforcement learning methods". ''Journal of Machine Learning Research''. '''18''' (136): 1–46.</ref><ref name=":14">Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep reinforcement learning from human preferences". ''Proceedings of the 31st International Conference on Neural Information Processing Systems''. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. [[Internationale Standardbuchnummer|ISBN]] [[978-1-5108-6096-4]].</ref><ref name=":15">Heaven, Will Douglas (27. Januar, 2022). [https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/ "The new version of GPT-3 is much better behaved (and should be less toxic)"]. ''MIT Technology Review''. [https://web.archive.org/web/20230210114056/https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/ Archiviert] vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.</ref> zur für Sicherheit relevanten Technik,<ref>Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März, 2022). "Taxonomy of Machine Learning Safety: A Survey and Primer". [[arXiv]]:[[arxiv:2106.04823|2106.04823]] [[https://arxiv.org/archive/cs.LG cs.LG]].</ref> zur [[Spieltheorie]],<ref>Clifton, Jesse (2020). [https://longtermrisk.org/research-agenda/ "Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda"]. ''Center on Long-Term Risk''. [https://web.archive.org/web/20230101041759/https://longtermrisk.org/research-agenda Archiviert] vom Original am 1. Januar, 2023. Abgerufen am 18. Juli 2022.
+</ref> zur Erkennung von Anomalien, zur kalibrierten Unsicherheit,<ref name=":2" /> zur formalen Verifikation,<ref>Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). [https://ojs.aaai.org/index.php/aimagazine/article/view/2577 "Research Priorities for Robust and Beneficial Artificial Intelligence"]. ''AI Magazine''. '''36''' (4): 105–114. doi:[[doi:10.1609/aimag.v36i4.2577|10.1609/aimag.v36i4.2577]]. hdl:[https://hdl.handle.net/1721.1%2F108478 1721.1/108478]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:2371-9621|2371-9621]]. S2CID [https://api.semanticscholar.org/CorpusID:8174496 8174496]. {{Webarchiv |url=https://ojs.aaai.org/index.php/aimagazine/article/view/2577 |wayback=20230202181059 |text=Archiviert}} vom Original am 2. Februar 2023. Abgerufen am 12. September, 2022.</ref> zum Präferenzlernen,<ref name=":13">Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "A survey of preference-based reinforcement learning methods". ''Journal of Machine Learning Research''. '''18''' (136): 1–46.</ref><ref name=":14">Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep reinforcement learning from human preferences". ''Proceedings of the 31st International Conference on Neural Information Processing Systems''. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. [[Internationale Standardbuchnummer|ISBN]] [[978-1-5108-6096-4]].</ref><ref name=":15">Heaven, Will Douglas (27. Januar, 2022). [https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/ "The new version of GPT-3 is much better behaved (and should be less toxic)"]. ''MIT Technology Review''. {{Webarchiv |url=https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/ |wayback=20230210114056 |text=Archiviert}} vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.</ref> zur für Sicherheit relevanten Technik,<ref>Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März, 2022). "Taxonomy of Machine Learning Safety: A Survey and Primer". [[arXiv]]:[[arxiv:2106.04823|2106.04823]] [[https://arxiv.org/archive/cs.LG cs.LG]].</ref> zur [[Spieltheorie]],<ref>Clifton, Jesse (2020). [https://longtermrisk.org/research-agenda/ "Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda"]. ''Center on Long-Term Risk''. {{Webarchiv |url=https://longtermrisk.org/research-agenda |wayback=20230101041759 |text=Archiviert}} vom Original am 1. Januar, 2023. Abgerufen am 18. Juli 2022.
-</ref> zur Algorithmen-Fairness,<ref name=":12" /><ref>Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). [https://dl.acm.org/doi/10.1145/3375627.3375803 "Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society"]. ''Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society''. New York NY USA: ACM: 138–143. doi:[[doi:10.1145/3375627.3375803|10.1145/3375627.3375803]]. ISBN [[:en:Special:BookSources/978-1-4503-7110-0|978-1-4503-7110-0]]. S2CID [https://api.semanticscholar.org/CorpusID:210164673 210164673]. [https://web.archive.org/web/20221016123733/https://dl.acm.org/doi/10.1145/3375627.3375803 Archiviert] vom Original am 16. Oktober, 2022. Abgerufen am 12. September, 2022.</ref> und zu den [[Sozialwissenschaften|Sozialwissenschaften.]]<ref>Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). [https://distill.pub/2019/safety-needs-social-scientists "AI Safety Needs Social Scientists"]. ''Distill''. '''4''' (2): 10.23915/distill.00014. [[doi]]:[[doi:10.23915/distill.00014|10.23915/distill.00014]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:2476-0757|2476-0757]]. S2CID [https://api.semanticscholar.org/CorpusID:159180422 159180422]. [https://web.archive.org/web/20230210114220/https://distill.pub/2019/safety-needs-social-scientists/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref>
+</ref> zur Algorithmen-Fairness,<ref name=":12" /><ref>Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). [https://dl.acm.org/doi/10.1145/3375627.3375803 "Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society"]. ''Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society''. New York NY USA: ACM: 138–143. doi:[[doi:10.1145/3375627.3375803|10.1145/3375627.3375803]]. ISBN [[:en:Special:BookSources/978-1-4503-7110-0|978-1-4503-7110-0]]. S2CID [https://api.semanticscholar.org/CorpusID:210164673 210164673]. {{Webarchiv |url=https://dl.acm.org/doi/10.1145/3375627.3375803 |wayback=20221016123733 |text=Archiviert}} vom Original am 16. Oktober, 2022. Abgerufen am 12. September, 2022.</ref> und zu den [[Sozialwissenschaften|Sozialwissenschaften.]]<ref>Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). [https://distill.pub/2019/safety-needs-social-scientists "AI Safety Needs Social Scientists"]. ''Distill''. '''4''' (2): 10.23915/distill.00014. [[doi]]:[[doi:10.23915/distill.00014|10.23915/distill.00014]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:2476-0757|2476-0757]]. S2CID [https://api.semanticscholar.org/CorpusID:159180422 159180422]. {{Webarchiv |url=https://distill.pub/2019/safety-needs-social-scientists/ |wayback=20230210114220 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref>
 == Das Ausrichtungsproblem ==
-beschrieb der KI-Pionier [[Norbert Wiener]] das KI-Ausrichtungsproblem wie folgt: „Wenn wir zur Erreichung unserer Ziele eine mechanische, autonome Entität nutzen, in deren Betrieb wir nicht wirksam eingreifen können… dann sollten wir besser ganz sicher gehen, dass die in die Maschine einprogrammierten Ziele die sind, die wir uns tatsächlich erhoffen.“<ref name=":16">Wiener, Norbert (6. Mai, 1960). [https://www.science.org/doi/10.1126/science.131.3410.1355 "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers"]. ''Science''. '''131''' (3410): 1355–1358. doi:[[doi:10.1126/science.131.3410.1355|10.1126/science.131.3410.1355]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0036-8075|0036-8075]]. [[PubMed|PMID]] [https://pubmed.ncbi.nlm.nih.gov/17841602 17841602]. [https://web.archive.org/web/20221015105034/https://www.science.org/doi/10.1126/science.131.3410.1355 Archiviert] vom Original am 15. Oktober, 2022. Abgerufen am 12. September, 2022.</ref><ref name=":6" /> Verschiedene Definitionen von KI-Ausrichtung verlangen, dass ein ausgerichtetes KI-System verschiedene Ziele verfolgt: die Ziele der Entwicklerinnen, der Benutzer oder alternativ objektive ethische Standards, weithin akzeptierte Werte oder die Absichten, die die Entwicklerinnen gehabt hätten, wären sie besser informiert und aufgeklärt gewesen.<ref name=":17">Gabriel, Iason (1. September, 2020). [[doi:10.1007/s11023-020-09539-2|"Artificial Intelligence, Values, and Alignment"]]. ''Minds and Machines''. '''30''' (3): 411–437. doi:[[doi:10.1007/s11023-020-09539-2|10.1007/s11023-020-09539-2]]. ISSN [[issn:1572-8641|1572-8641]]. S2CID [https://api.semanticscholar.org/CorpusID:210920551 210920551]. [https://web.archive.org/web/20230315193114/https://link.springer.com/article/10.1007/s11023-020-09539-2 Archiviert] vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.</ref>
+beschrieb der KI-Pionier [[Norbert Wiener]] das KI-Ausrichtungsproblem wie folgt: „Wenn wir zur Erreichung unserer Ziele eine mechanische, autonome Entität nutzen, in deren Betrieb wir nicht wirksam eingreifen können… dann sollten wir besser ganz sicher gehen, dass die in die Maschine einprogrammierten Ziele die sind, die wir uns tatsächlich erhoffen.“<ref name=":16">Wiener, Norbert (6. Mai, 1960). [https://www.science.org/doi/10.1126/science.131.3410.1355 "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers"]. ''Science''. '''131''' (3410): 1355–1358. doi:[[doi:10.1126/science.131.3410.1355|10.1126/science.131.3410.1355]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0036-8075|0036-8075]]. [[PubMed|PMID]] [https://pubmed.ncbi.nlm.nih.gov/17841602 17841602]. {{Webarchiv |url=https://www.science.org/doi/10.1126/science.131.3410.1355 |wayback=20221015105034 |text=Archiviert}} vom Original am 15. Oktober, 2022. Abgerufen am 12. September, 2022.</ref><ref name=":6" /> Verschiedene Definitionen von KI-Ausrichtung verlangen, dass ein ausgerichtetes KI-System verschiedene Ziele verfolgt: die Ziele der Entwicklerinnen, der Benutzer oder alternativ objektive ethische Standards, weithin akzeptierte Werte oder die Absichten, die die Entwicklerinnen gehabt hätten, wären sie besser informiert und aufgeklärt gewesen.<ref name=":17">Gabriel, Iason (1. September, 2020). [[doi:10.1007/s11023-020-09539-2|"Artificial Intelligence, Values, and Alignment"]]. ''Minds and Machines''. '''30''' (3): 411–437. doi:[[doi:10.1007/s11023-020-09539-2|10.1007/s11023-020-09539-2]]. ISSN [[issn:1572-8641|1572-8641]]. S2CID [https://api.semanticscholar.org/CorpusID:210920551 210920551]. {{Webarchiv |url=https://link.springer.com/article/10.1007/s11023-020-09539-2 |wayback=20230315193114 |text=Archiviert}} vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.</ref>
-Die KI-Ausrichtung stellt ein offenes Problem für moderne KI-Systeme<ref>The Ezra Klein Show (4. Juni, 2021). [https://www.nytimes.com/2021/06/04/opinion/ezra-klein-podcast-brian-christian.html "If 'All Models Are Wrong,' Why Do We Give Them So Much Power?"]. ''The New York Times''. ISSN [[issn:0362-4331|0362-4331]]. [https://web.archive.org/web/20230215224050/https://www.nytimes.com/2021/06/04/opinion/ezra-klein-podcast-brian-christian.html Archiviert] vom Original am 15. Februar, 2023. Abgerufen am 13. März 2023.</ref><ref name=":18">Johnson, Steven; Iziev, Nikita (15. April, 2022). [https://www.nytimes.com/2022/04/15/magazine/ai-language.html "A.I. Is Mastering Language. Should We Trust What It Says?"]. ''The New York Times''. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0362-4331|0362-4331]]. [https://web.archive.org/web/20221124151408/https://www.nytimes.com/2022/04/15/magazine/ai-language.html Archiviert] vom Original am 24. November, 2022. Abgerufen am 18. Juli 2022.</ref> und ein Teilgebiet innerhalb der KI-Forschung dar.<ref>OpenAI. [https://openai.com/blog/our-approach-to-alignment-research "Developing safe & responsible AI"]. Abgerufen am 13. März 2023.
+Die KI-Ausrichtung stellt ein offenes Problem für moderne KI-Systeme<ref>The Ezra Klein Show (4. Juni, 2021). [https://www.nytimes.com/2021/06/04/opinion/ezra-klein-podcast-brian-christian.html "If 'All Models Are Wrong,' Why Do We Give Them So Much Power?"]. ''The New York Times''. ISSN [[issn:0362-4331|0362-4331]]. {{Webarchiv |url=https://www.nytimes.com/2021/06/04/opinion/ezra-klein-podcast-brian-christian.html |wayback=20230215224050 |text=Archiviert}} vom Original am 15. Februar, 2023. Abgerufen am 13. März 2023.</ref><ref name=":18">Johnson, Steven; Iziev, Nikita (15. April, 2022). [https://www.nytimes.com/2022/04/15/magazine/ai-language.html "A.I. Is Mastering Language. Should We Trust What It Says?"]. ''The New York Times''. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0362-4331|0362-4331]]. {{Webarchiv |url=https://www.nytimes.com/2022/04/15/magazine/ai-language.html |wayback=20221124151408 |text=Archiviert}} vom Original am 24. November, 2022. Abgerufen am 18. Juli 2022.</ref> und ein Teilgebiet innerhalb der KI-Forschung dar.<ref>OpenAI. [https://openai.com/blog/our-approach-to-alignment-research "Developing safe & responsible AI"]. Abgerufen am 13. März 2023.
 </ref><ref name=":0" /> Der Ausrichtung von KI stellen sich zwei wesentliche Herausforderungen: die sorgfältige [[Spezifikation|Spezifizierung]] des Systemzieles (äußere Ziel- und Wertausrichtung) und die Sicherstellung, dass das System sich die Spezifikationen verlässlich aneignet und danach handelt (innere Ziel- und Wertausrichtung).<ref name=":3" />
 === Spezifikationsumgehung und Nebeneffekte ===
-Um den Zweck eines KI-Systems zu spezifizieren, geben KI-Designerinnen dem System in der Regel eine [[Bestärkendes Lernen|Zielfunktion]], [[Überwachtes Lernen|Beispiele]] oder [[Bestärkendes Lernen|Feedback]]. Sie sind jedoch oft nicht in der Lage, alle wichtigen Werte und Einschränkungen vollständig zu spezifizieren, und greifen daher auf leicht spezifizierbare Stellvertreterziele zurück, wie z. B. die Maximierung der Zustimmung menschlicher Aufseher, die fehlbar sind.<ref name=":12" /><ref name=":19">Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16. Juni, 2022). "Unsolved Problems in ML Safety". [[arXiv]]:[[arxiv:2109.13916|2109.13916]] [[https://arxiv.org/archive/cs.LG cs.LG]].</ref><ref name=":1">Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27. September, 2018). [https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 "Building safe artificial intelligence: specification, robustness, and assurance"]. ''DeepMind Safety Research – Medium''. [https://web.archive.org/web/20230210114142/https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.</ref><ref>Russell, Stuart J.; Norvig, Peter (2022). ''[https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html Artificial intelligence: a modern approach]'' (4. Ausgabe). Pearson. pp. 4–5. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-1-292-40113-3|978-1-292-40113-3]]. OCLC [https://www.worldcat.org/oclc/1303900751 1303900751].</ref><ref name=":20" /> Infolgedessen können KI-Systeme Schlupflöcher finden, die ihnen helfen, das spezifizierte Ziel effizient, aber auf unbeabsichtigte und möglicherweise schädliche Weise zu erreichen. Diese Tendenz wird als ''Spezifikationsumgehung'' oder ''Belohnungs-Hacking'' bezeichnet und ist ein Beispiel für [[Goodharts Gesetz]].<ref name=":20" /><ref name=":4" /><ref>Manheim, David; Garrabrant, Scott (2018). "Categorizing Variants of Goodhart's Law". [[arXiv]]:[[arxiv:1803.04585|1803.04585]] [[https://arxiv.org/archive/cs.AI cs.AI]].</ref> Da KI-Systeme immer leistungsfähiger werden, sind sie oft in der Lage, ihre Spezifikationen mit zunehmender Effektivität zu umgehen.<ref name=":4" />
+Um den Zweck eines KI-Systems zu spezifizieren, geben KI-Designerinnen dem System in der Regel eine [[Bestärkendes Lernen|Zielfunktion]], [[Überwachtes Lernen|Beispiele]] oder [[Bestärkendes Lernen|Feedback]]. Sie sind jedoch oft nicht in der Lage, alle wichtigen Werte und Einschränkungen vollständig zu spezifizieren, und greifen daher auf leicht spezifizierbare Stellvertreterziele zurück, wie z. B. die Maximierung der Zustimmung menschlicher Aufseher, die fehlbar sind.<ref name=":12" /><ref name=":19">Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16. Juni, 2022). "Unsolved Problems in ML Safety". [[arXiv]]:[[arxiv:2109.13916|2109.13916]] [[https://arxiv.org/archive/cs.LG cs.LG]].</ref><ref name=":1">Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27. September, 2018). [https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 "Building safe artificial intelligence: specification, robustness, and assurance"]. ''DeepMind Safety Research – Medium''. {{Webarchiv |url=https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1 |wayback=20230210114142 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 18. Juli 2022.</ref><ref>Russell, Stuart J.; Norvig, Peter (2022). ''[https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html Artificial intelligence: a modern approach]'' (4. Ausgabe). Pearson. pp. 4–5. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-1-292-40113-3|978-1-292-40113-3]]. OCLC [https://www.worldcat.org/oclc/1303900751 1303900751].</ref><ref name=":20" /> Infolgedessen können KI-Systeme Schlupflöcher finden, die ihnen helfen, das spezifizierte Ziel effizient, aber auf unbeabsichtigte und möglicherweise schädliche Weise zu erreichen. Diese Tendenz wird als ''Spezifikationsumgehung'' oder ''Belohnungs-Hacking'' bezeichnet und ist ein Beispiel für [[Goodharts Gesetz]].<ref name=":20" /><ref name=":4" /><ref>Manheim, David; Garrabrant, Scott (2018). "Categorizing Variants of Goodhart's Law". [[arXiv]]:[[arxiv:1803.04585|1803.04585]] [[https://arxiv.org/archive/cs.AI cs.AI]].</ref> Da KI-Systeme immer leistungsfähiger werden, sind sie oft in der Lage, ihre Spezifikationen mit zunehmender Effektivität zu umgehen.<ref name=":4" />
-Spezifikationsumgehung wurde bereits bei zahlreichen KI-Systemen beobachtet.<ref name=":20">Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). [https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity "Specification gaming: the flip side of AI ingenuity"]. ''Deepmind''. [https://web.archive.org/web/20230210114143/https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 26. August, 2022.</ref><ref>{{Internetquelle |url=https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml |titel=Specification gaming examples in AI - master list - Google Drive |abruf=2023-07-14}}</ref> Ein System wurde darauf trainiert, ein simuliertes Bootsrennen zu beenden, indem es für das Berühren von Etappenpunkten entlang der Strecke belohnt wurde; das System erzielte jedoch mehr Belohnungen, indem es sich in einer Schleife drehte und immer wieder in dieselben Punkte hineinraste.<ref>Gabriel, Iason (1. September, 2020). [[doi:10.1007/s11023-020-09539-2|"Artificial Intelligence, Values, and Alignment"]]. ''Minds and Machines''. '''30''' (3): 411–437. doi:[[doi:10.1007/s11023-020-09539-2|10.1007/s11023-020-09539-2]]. ISSN [[issn:1572-8641|1572-8641]]. S2CID [https://api.semanticscholar.org/CorpusID:210920551 210920551]. [https://web.archive.org/web/20230315193114/https://link.springer.com/article/10.1007/s11023-020-09539-2 Archiviert] vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.</ref> In einem ähnlichen Fall wurde ein simulierter Roboter darauf trainiert, einen Ball zu greifen, indem er dafür belohnt wurde positives Feedback von Menschen zu erlangen; er lernte jedoch, seine Hand zwischen Ball und Kamera zu platzieren, wodurch er fälschlicherweise erfolgreich erschien.<ref name=":21">Amodei, Dario; Christiano, Paul; Ray, Alex (13. Juni, 2017). [https://openai.com/blog/deep-reinforcement-learning-from-human-preferences/ "Learning from Human Preferences"]. ''OpenAI''. Archiviert vom Original am 3. Januar, 2021. Abgerufen am 21. Juli 2022.</ref> Chatbots produzieren oft Unwahrheiten, wenn sie auf Sprachmodellen basieren, die darauf trainiert sind, Texte aus dem Netz zu imitieren. Diese sind zwar umfangreich, aber fehleranfällig.<ref name=":22">Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). [https://aclanthology.org/2022.acl-long.229 "TruthfulQA: Measuring How Models Mimic Human Falsehoods"]. ''Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)''. Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:[[doi:10.18653/v1/2022.acl-long.229|10.18653/v1/2022.acl-long.229]]. S2CID [https://api.semanticscholar.org/CorpusID:237532606 237532606]. [https://web.archive.org/web/20230210114231/https://aclanthology.org/2022.acl-long.229/ Archiviert] vom Original am 10. Februar 2023. Abgerufen am 12. September, 2022.</ref><ref name=":23">Naughton, John (2. Oktober, 2021). [https://www.theguardian.com/commentisfree/2021/oct/02/the-truth-about-artificial-intelligence-it-isnt-that-honest "The truth about artificial intelligence? It isn't that honest"]. ''The Observer''. ISSN [[issn:0029-7712|0029-7712]]. [https://web.archive.org/web/20230213231317/https://www.theguardian.com/commentisfree/2021/oct/02/the-truth-about-artificial-intelligence-it-isnt-that-honest Archiviert] vom Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.</ref> Wenn sie dazu umtrainiert werden Texte zu produzieren, die Menschen als wahr oder hilfreich einstufen, können Chatbots wie [[ChatGPT]] falsche Erklärungen fabrizieren, die Menschen als überzeugend empfinden.<ref>Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar, 2022). [https://ui.adsabs.harvard.edu/abs/2022arXiv220203629J "Survey of Hallucination in Natural Language Generation"]. ''ACM Computing Surveys''. '''55''' (12): 1–38. arXiv:[[arxiv:2202.03629|2202.03629]]. doi:[[doi:10.1145/3571730|10.1145/3571730]]. S2CID [https://api.semanticscholar.org/CorpusID:246652372 246652372]. [https://web.archive.org/web/20230210114138/https://ui.adsabs.harvard.edu/abs/2022arXiv220203629J Archiviert] vom Original am 10. Februar, 2023. abgerufen am 14. Oktober 2022.
+Spezifikationsumgehung wurde bereits bei zahlreichen KI-Systemen beobachtet.<ref name=":20">Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). [https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity "Specification gaming: the flip side of AI ingenuity"]. ''Deepmind''. {{Webarchiv |url=https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity |wayback=20230210114143 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 26. August, 2022.</ref><ref>{{Internetquelle |url=https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml |titel=Specification gaming examples in AI - master list - Google Drive |abruf=2023-07-14}}</ref> Ein System wurde darauf trainiert, ein simuliertes Bootsrennen zu beenden, indem es für das Berühren von Etappenpunkten entlang der Strecke belohnt wurde; das System erzielte jedoch mehr Belohnungen, indem es sich in einer Schleife drehte und immer wieder in dieselben Punkte hineinraste.<ref>Gabriel, Iason (1. September, 2020). [[doi:10.1007/s11023-020-09539-2|"Artificial Intelligence, Values, and Alignment"]]. ''Minds and Machines''. '''30''' (3): 411–437. doi:[[doi:10.1007/s11023-020-09539-2|10.1007/s11023-020-09539-2]]. ISSN [[issn:1572-8641|1572-8641]]. S2CID [https://api.semanticscholar.org/CorpusID:210920551 210920551]. {{Webarchiv |url=https://link.springer.com/article/10.1007/s11023-020-09539-2 |wayback=20230315193114 |text=Archiviert}} vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.</ref> In einem ähnlichen Fall wurde ein simulierter Roboter darauf trainiert, einen Ball zu greifen, indem er dafür belohnt wurde positives Feedback von Menschen zu erlangen; er lernte jedoch, seine Hand zwischen Ball und Kamera zu platzieren, wodurch er fälschlicherweise erfolgreich erschien.<ref name=":21">Amodei, Dario; Christiano, Paul; Ray, Alex (13. Juni, 2017). [https://openai.com/blog/deep-reinforcement-learning-from-human-preferences/ "Learning from Human Preferences"]. ''OpenAI''. Archiviert vom Original am 3. Januar, 2021. Abgerufen am 21. Juli 2022.</ref> Chatbots produzieren oft Unwahrheiten, wenn sie auf Sprachmodellen basieren, die darauf trainiert sind, Texte aus dem Netz zu imitieren. Diese sind zwar umfangreich, aber fehleranfällig.<ref name=":22">Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). [https://aclanthology.org/2022.acl-long.229 "TruthfulQA: Measuring How Models Mimic Human Falsehoods"]. ''Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)''. Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:[[doi:10.18653/v1/2022.acl-long.229|10.18653/v1/2022.acl-long.229]]. S2CID [https://api.semanticscholar.org/CorpusID:237532606 237532606]. {{Webarchiv |url=https://aclanthology.org/2022.acl-long.229/ |wayback=20230210114231 |text=Archiviert}} vom Original am 10. Februar 2023. Abgerufen am 12. September, 2022.</ref><ref name=":23">Naughton, John (2. Oktober, 2021). [https://www.theguardian.com/commentisfree/2021/oct/02/the-truth-about-artificial-intelligence-it-isnt-that-honest "The truth about artificial intelligence? It isn't that honest"]. ''The Observer''. ISSN [[issn:0029-7712|0029-7712]]. {{Webarchiv |url=https://www.theguardian.com/commentisfree/2021/oct/02/the-truth-about-artificial-intelligence-it-isnt-that-honest |wayback=20230213231317 |text=Archiviert}} vom Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.</ref> Wenn sie dazu umtrainiert werden Texte zu produzieren, die Menschen als wahr oder hilfreich einstufen, können Chatbots wie [[ChatGPT]] falsche Erklärungen fabrizieren, die Menschen als überzeugend empfinden.<ref>Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar, 2022). [https://ui.adsabs.harvard.edu/abs/2022arXiv220203629J "Survey of Hallucination in Natural Language Generation"]. ''ACM Computing Surveys''. '''55''' (12): 1–38. arXiv:[[arxiv:2202.03629|2202.03629]]. doi:[[doi:10.1145/3571730|10.1145/3571730]]. S2CID [https://api.semanticscholar.org/CorpusID:246652372 246652372]. {{Webarchiv |url=https://ui.adsabs.harvard.edu/abs/2022arXiv220203629J |wayback=20230210114138 |text=Archiviert}} vom Original am 10. Februar, 2023. abgerufen am 14. Oktober 2022.
 * Else, Holly (12. Januar, 2023). [https://www.nature.com/articles/d41586-023-00056-7 "Abstracts written by ChatGPT fool scientists"]. ''Nature''. '''613''' (7944): 423. [[Bibcode]]:[https://ui.adsabs.harvard.edu/abs/2023Natur.613..423E 2023Natur.613..423E]. doi:[[doi:10.1038/d41586-023-00056-7|10.1038/d41586-023-00056-7]]. [[PubMed|PMID]] [https://pubmed.ncbi.nlm.nih.gov/36635510 36635510]. S2CID [https://api.semanticscholar.org/CorpusID:255773668 255773668].</ref> Einige Forscher zielen darauf ab, Menschen dabei zu helfen, Spezifikationsumgehung zu erkennen und KI-Systeme auf sorgfältig spezifizierte Ziele zu lenken, deren Verfolgung sicher und nützlich ist.
@@ Zeile 35: / Zeile 35: @@
 Wenn ein fehlausgerichtetes KI-System eingesetzt wird, kann das zu folgenschweren Nebenwirkungen führen. Social-Media-Plattformen sind dafür bekannt, dass sie die Klickraten optimieren, was seitens der Nutzer zu einem weltweit verbreiteten Suchtverhalten führt.<ref name=":19" /> Stanford-Forscher merken an, dass solche [[Empfehlungsdienst|Empfehlungsdienste]] für ihre Nutzer fehlausgerichtet sind, weil sie „einfache Interaktions-Metriken optimieren, anstelle von einer schwieriger messbaren Kombination aus gesellschaftlichem - und Verbraucher Wohlbefinden."<ref name=":24">Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12. Juli, 2022). [https://fsi.stanford.edu/publication/opportunities-and-risks-foundation-models "On the Opportunities and Risks of Foundation Models"]. ''Stanford CRFM''. [[arXiv]]:[[arxiv:2108.07258|2108.07258]].</ref>
-[[Stuart Russell]], KI-Wissenschaftler an der UC Berkeley, erklärt im Hinblick auf solche Probleme, dass Schaden entstehen kann, wenn implizite Einschränkungen beim Training des Systems ausgelassen werden: „Ein System ... wird oft ... uneingeschränkte Variablen auf extreme Werte ansetzen; wenn eine dieser nicht eingeschränkten Variablen tatsächlich etwas enthält, das für uns von großem Wert ist, könnte die gefundene Lösung höchst unerwünscht sein. Das ist im Grunde die alte Geschichte vom Geist in der Lampe, vom Zauberlehrling oder von König Midas: Man bekommt genau das, was man verlangt, nicht das, was man will.“<ref>Russell, Stuart. [https://www.edge.org/conversation/the-myth-of-ai "Of Myths and Moonshine"]. ''Edge.org''. [https://web.archive.org/web/20230210114137/https://www.edge.org/conversation/the-myth-of-ai Archiviert] vom Original on 10. Februar, 2023. Abgerufen am 19. Juli, 2022.</ref>
+[[Stuart Russell]], KI-Wissenschaftler an der UC Berkeley, erklärt im Hinblick auf solche Probleme, dass Schaden entstehen kann, wenn implizite Einschränkungen beim Training des Systems ausgelassen werden: „Ein System ... wird oft ... uneingeschränkte Variablen auf extreme Werte ansetzen; wenn eine dieser nicht eingeschränkten Variablen tatsächlich etwas enthält, das für uns von großem Wert ist, könnte die gefundene Lösung höchst unerwünscht sein. Das ist im Grunde die alte Geschichte vom Geist in der Lampe, vom Zauberlehrling oder von König Midas: Man bekommt genau das, was man verlangt, nicht das, was man will.“<ref>Russell, Stuart. [https://www.edge.org/conversation/the-myth-of-ai "Of Myths and Moonshine"]. ''Edge.org''. {{Webarchiv |url=https://www.edge.org/conversation/the-myth-of-ai |wayback=20230210114137 |text=Archiviert}} vom Original on 10. Februar, 2023. Abgerufen am 19. Juli, 2022.</ref>
 Einige Forscher schlagen vor, dass KI-Entwickler ihre gewünschten Ziele durch die Auflistung verbotener Handlungen oder durch die Formalisierung ethischer Regeln (wie bei [[Robotergesetze|Asimovs Robotergesetzen]]) spezifizieren sollten.<ref>Tasioulas, John (2019). "First Steps Towards an Ethics of Robots and Artificial Intelligence". ''Journal of Practical Ethics''. '''7''' (1): 61–95.</ref> [[Stuart Russell|Russell]] und [[Peter Norvig|Norvig]] argumentieren jedoch, dass dieser Ansatz die Komplexität menschlicher Werte übersieht:<ref name=":6" /> „Es ist sicherlich sehr schwer und vielleicht sogar unmöglich für den Menschen mit all seinen Einschränkungen, alle katastrophalen Wege, die die Maschine wählen könnte, um ein bestimmtes Ziel zu erreichen, vorherzusehen und auszuschließen.“<ref name=":6" />
@@ Zeile 42: / Zeile 42: @@
 === Druck hin zum Einsatz unsicherer Systeme ===
-Kommerzielle Unternehmen haben manchmal Anreize, in Sachen Sicherheit Abstriche zu machen und fehlausgerichtete oder unsichere KI-Systeme einzusetzen.<ref name=":19" /> Die bereits erwähnten [[Empfehlungsdienst|Empfehlungsdienste]] für soziale Medien waren beispielsweise profitabel, obwohl sie unerwünschte Abhängigkeiten und Polarisierung geschaffen haben.<ref name=":24" /><ref>Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5. November, 2021). [https://www.wsj.com/articles/facebook-bad-for-you-360-million-users-say-yes-company-documents-facebook-files-11636124681 "Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest"]. ''The Wall Street Journal''. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0099-9660|0099-9660]]. [https://web.archive.org/web/20230210114137/https://www.wsj.com/articles/facebook-bad-for-you-360-million-users-say-yes-company-documents-facebook-files-11636124681 Archiviert] aus dem Original am 10. Februar, 2023. Abgerufen am 19. Juli, 2022.</ref><ref>Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). [https://bhr.stern.nyu.edu/polarization-report-page How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It] (Bericht). Center for Business and Human Rights, NYU. [https://web.archive.org/web/20230201180005/https://bhr.stern.nyu.edu/polarization-report-page Archiviert] aus dem Original am 1. Februar 2023. Abgerufen am 12. September, 2022.</ref> Zudem kann der Wettbewerbsdruck zu einem [[race]] to the bottom bei den KI-Sicherheitsstandards führen. Im Jahr 2018 tötete ein selbstfahrendes Auto eine Fußgängerin ([[Elaine Herzberg|Elaine]] [[Der Tod von Elaine Herzberg|Herzberg]]), nachdem Ingenieure das Notbremssystem deaktiviert hatten, weil es zu empfindlich war und die Entwicklung verlangsamte.<ref>Shepardson, David (24. Mai, 2018). [https://www.reuters.com/article/us-uber-crash-idUSKCN1IP26K "Uber disabled emergency braking in self-driving car: U.S. agency"]. ''Reuters''. [https://web.archive.org/web/20230210114137/https://www.reuters.com/article/us-uber-crash-idUSKCN1IP26K Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 20. Juli, 2022.</ref>
+Kommerzielle Unternehmen haben manchmal Anreize, in Sachen Sicherheit Abstriche zu machen und fehlausgerichtete oder unsichere KI-Systeme einzusetzen.<ref name=":19" /> Die bereits erwähnten [[Empfehlungsdienst|Empfehlungsdienste]] für soziale Medien waren beispielsweise profitabel, obwohl sie unerwünschte Abhängigkeiten und Polarisierung geschaffen haben.<ref name=":24" /><ref>Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5. November, 2021). [https://www.wsj.com/articles/facebook-bad-for-you-360-million-users-say-yes-company-documents-facebook-files-11636124681 "Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest"]. ''The Wall Street Journal''. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0099-9660|0099-9660]]. {{Webarchiv |url=https://www.wsj.com/articles/facebook-bad-for-you-360-million-users-say-yes-company-documents-facebook-files-11636124681 |wayback=20230210114137 |text=Archiviert}} aus dem Original am 10. Februar, 2023. Abgerufen am 19. Juli, 2022.</ref><ref>Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). [https://bhr.stern.nyu.edu/polarization-report-page How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It] (Bericht). Center for Business and Human Rights, NYU. {{Webarchiv |url=https://bhr.stern.nyu.edu/polarization-report-page |wayback=20230201180005 |text=Archiviert}} aus dem Original am 1. Februar 2023. Abgerufen am 12. September, 2022.</ref> Zudem kann der Wettbewerbsdruck zu einem [[race]] to the bottom bei den KI-Sicherheitsstandards führen. Im Jahr 2018 tötete ein selbstfahrendes Auto eine Fußgängerin ([[Elaine Herzberg|Elaine]] [[Der Tod von Elaine Herzberg|Herzberg]]), nachdem Ingenieure das Notbremssystem deaktiviert hatten, weil es zu empfindlich war und die Entwicklung verlangsamte.<ref>Shepardson, David (24. Mai, 2018). [https://www.reuters.com/article/us-uber-crash-idUSKCN1IP26K "Uber disabled emergency braking in self-driving car: U.S. agency"]. ''Reuters''. {{Webarchiv |url=https://www.reuters.com/article/us-uber-crash-idUSKCN1IP26K |wayback=20230210114137 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 20. Juli, 2022.</ref>
 === Risiken durch fortgeschrittene, Fehlausgerichtete KI ===
@@ Zeile 48: / Zeile 48: @@
 ==== Entwicklung von fortgeschrittener KI ====
-Führende KI-Labore wie [[OpenAI]] und [[DeepMind]] haben ihr Ziel erklärt, [[Artificial General Intelligence|Artificial General]] [[Intelligence]] (AGI), zu Deutsch Allgemeine Künstliche Intelligenz zu entwickeln, ein KI-System, das dem Menschen in einem breiten Spektrum kognitiver Aufgaben ebenbürtig ist oder ihn sogar übertrifft.<ref>Baum, Seth (1. Januar, 2021). [https://gcrinstitute.org/2020-survey-of-artificial-general-intelligence-projects-for-ethics-risk-and-policy/ "2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy"]. [https://web.archive.org/web/20230210114138/https://gcrinstitute.org/2020-survey-of-artificial-general-intelligence-projects-for-ethics-risk-and-policy/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 20. Juli, 2022.</ref> Forscher, die moderne [[Neuronales Netz|neuronale Netze]] skalieren, beobachten, dass diese in der Tat immer allgemeinere und unvorhergesehene Fähigkeiten entwickeln.<ref name=":24" /><ref name=":25">Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (26. Oktober, 2022). "Emergent Abilities of Large Language Models". ''Transactions on Machine Learning Research''. [[arXiv]]:[[arxiv:2206.07682|2206.07682]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:2835-8856|2835-8856]].</ref><ref name=":26">Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). [[arxiv:2210.14891|"Broken Neural Scaling Laws"]]. International Conference on Learning Representations (ICLR), 2023.</ref>  Solche Modelle haben gelernt, einen Computer zu bedienen oder eigene Programme zu schreiben; ein einziges "generalistisches" Netzwerk kann chatten, Roboter steuern, Spiele spielen und Fotos interpretieren.<ref>Dominguez, Daniel (19. Mai, 2022). [https://www.infoq.com/news/2022/05/deepmind-gato-ai-agent/ "DeepMind Introduces Gato, a New Generalist AI Agent"]. ''InfoQ''. [https://web.archive.org/web/20230210114137/https://www.infoq.com/news/2022/05/deepmind-gato-ai-agent/ Archiviert] vom Original am10. Februar, 2023. Abgerufen am 9. September, 2022.
+Führende KI-Labore wie [[OpenAI]] und [[DeepMind]] haben ihr Ziel erklärt, [[Artificial General Intelligence|Artificial General]] [[Intelligence]] (AGI), zu Deutsch Allgemeine Künstliche Intelligenz zu entwickeln, ein KI-System, das dem Menschen in einem breiten Spektrum kognitiver Aufgaben ebenbürtig ist oder ihn sogar übertrifft.<ref>Baum, Seth (1. Januar, 2021). [https://gcrinstitute.org/2020-survey-of-artificial-general-intelligence-projects-for-ethics-risk-and-policy/ "2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy"]. {{Webarchiv |url=https://gcrinstitute.org/2020-survey-of-artificial-general-intelligence-projects-for-ethics-risk-and-policy/ |wayback=20230210114138 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 20. Juli, 2022.</ref> Forscher, die moderne [[Neuronales Netz|neuronale Netze]] skalieren, beobachten, dass diese in der Tat immer allgemeinere und unvorhergesehene Fähigkeiten entwickeln.<ref name=":24" /><ref name=":25">Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (26. Oktober, 2022). "Emergent Abilities of Large Language Models". ''Transactions on Machine Learning Research''. [[arXiv]]:[[arxiv:2206.07682|2206.07682]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:2835-8856|2835-8856]].</ref><ref name=":26">Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). [[arxiv:2210.14891|"Broken Neural Scaling Laws"]]. International Conference on Learning Representations (ICLR), 2023.</ref>  Solche Modelle haben gelernt, einen Computer zu bedienen oder eigene Programme zu schreiben; ein einziges "generalistisches" Netzwerk kann chatten, Roboter steuern, Spiele spielen und Fotos interpretieren.<ref>Dominguez, Daniel (19. Mai, 2022). [https://www.infoq.com/news/2022/05/deepmind-gato-ai-agent/ "DeepMind Introduces Gato, a New Generalist AI Agent"]. ''InfoQ''. [https://web.archive.org/web/20230210114137/https://www.infoq.com/news/2022/05/deepmind-gato-ai-agent/ Archiviert] vom Original am10. Februar, 2023. Abgerufen am 9. September, 2022.
-* Edwards, Ben (26. April, 2022). [https://arstechnica.com/information-technology/2022/09/new-ai-assistant-can-browse-search-and-use-web-apps-like-a-human/ "Adept's AI assistant can browse, search, and use web apps like a human"]. ''Ars Technica''. [https://web.archive.org/web/20230117194921/https://arstechnica.com/information-technology/2022/09/new-ai-assistant-can-browse-search-and-use-web-apps-like-a-human/ Archiviert] vom Original am 17. Januar, 2023. Abgerufen am 9. September, 2022.</ref> Umfragen zufolge erwarten einige führende Forscher auf dem Gebiet des [[Maschinelles Lernen|maschinellen Lernens]], dass AGI noch in diesem Jahrzehnt geschaffen wird, andere glauben, dass es viel länger dauern wird, und viele halten beides für möglich.<ref>Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli, 2018). [http://jair.org/index.php/jair/article/view/11222 "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts"]. ''Journal of Artificial Intelligence Research''. '''62''': 729–754. [[doi]]:[[doi:10.1613/jair.1.11222|10.1613/jair.1.11222]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:1076-9757|1076-9757]]. S2CID [https://api.semanticscholar.org/CorpusID:8746462 8746462]. [https://web.archive.org/web/20230210114220/https://jair.org/index.php/jair/article/view/11222 Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref><ref>Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August, 2021). [https://jair.org/index.php/jair/article/view/12895 "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers"]. ''Journal of Artificial Intelligence Research''. '''71'''. [[doi]]:[[doi:10.1613/jair.1.12895|10.1613/jair.1.12895]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:1076-9757|1076-9757]]. S2CID 233740003. [https://web.archive.org/web/20230210114143/https://jair.org/index.php/jair/article/view/12895 Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref>
+* Edwards, Ben (26. April, 2022). [https://arstechnica.com/information-technology/2022/09/new-ai-assistant-can-browse-search-and-use-web-apps-like-a-human/ "Adept's AI assistant can browse, search, and use web apps like a human"]. ''Ars Technica''. {{Webarchiv |url=https://arstechnica.com/information-technology/2022/09/new-ai-assistant-can-browse-search-and-use-web-apps-like-a-human/ |wayback=20230117194921 |text=Archiviert}} vom Original am 17. Januar, 2023. Abgerufen am 9. September, 2022.</ref> Umfragen zufolge erwarten einige führende Forscher auf dem Gebiet des [[Maschinelles Lernen|maschinellen Lernens]], dass AGI noch in diesem Jahrzehnt geschaffen wird, andere glauben, dass es viel länger dauern wird, und viele halten beides für möglich.<ref>Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli, 2018). [https://jair.org/index.php/jair/article/view/11222 "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts"]. ''Journal of Artificial Intelligence Research''. '''62''': 729–754. [[doi]]:[[doi:10.1613/jair.1.11222|10.1613/jair.1.11222]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:1076-9757|1076-9757]]. S2CID [https://api.semanticscholar.org/CorpusID:8746462 8746462]. {{Webarchiv |url=https://jair.org/index.php/jair/article/view/11222 |wayback=20230210114220 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref><ref>Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August, 2021). [https://jair.org/index.php/jair/article/view/12895 "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers"]. ''Journal of Artificial Intelligence Research''. '''71'''. [[doi]]:[[doi:10.1613/jair.1.12895|10.1613/jair.1.12895]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:1076-9757|1076-9757]]. S2CID 233740003. {{Webarchiv |url=https://jair.org/index.php/jair/article/view/12895 |wayback=20230210114143 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref>
 Im Jahr 2023 unterzeichneten führende KI-Forscher und -Techniker einen offenen Brief, in dem sie eine Pause für die größten KI-Trainingsläufen forderten. In dem Brief heißt es, dass "leistungsstarke KI-Systeme erst dann entwickelt werden sollten, wenn wir sicher sind, dass ihre Auswirkungen positiv und ihre Risiken überschaubar sein werden."<ref>Future of Life Institute (22. März, 2023). [https://futureoflife.org/open-letter/pause-giant-ai-experiments/ "Pause Giant AI Experiments: An Open Letter"]. Abgerufen am 20. April, 2023.</ref>
@@ Zeile 60: / Zeile 60: @@
 ==== Existenzielles Risiko ====
-Einigen Forscherinnen zufolge verdankt der Mensch seine Vorherrschaft über andere Arten seinen größeren kognitiven Fähigkeiten. Dementsprechend argumentieren die Forscher, dass ein oder mehrere falsch ausgerichtete KI-Systeme die Menschheit entmachten oder zu ihrem Aussterben führen könnten, wenn sie den Menschen bei den meisten kognitiven Aufgaben übertreffen.<ref name=":0" /><ref name=":6" /> Zu den namhaften Informatikern, die auf die Risiken einer falsch ausgerichteten zukünftigen fortgeschrittenen KI hingewiesen haben, gehören [[Geoffrey Hinton]], [[Alan Turing]], Ilya Sutskever,<ref>Muehlhauser, Luke (29. Januar, 2016). [https://lukemuehlhauser.com/sutskever-on-talking-machines/ "Sutskever on Talking Machines"]. ''Luke Muehlhauser''. [https://web.archive.org/web/20220927200137/https://lukemuehlhauser.com/sutskever-on-talking-machines/ Archiviert] vom Original am 27. September, 2022. Abgerufen am 26. August, 2022.</ref> [[Yoshua Bengio]],<ref>[https://www.safe.ai/statement-on-ai-risk "Statement on AI Risk | CAIS"]. www.safe.ai. Abgerufen am 17. Juli, 2023.</ref> [[Judea Pearl]], Murray Shanahan, <ref>Shanahan, Murray (2015). ''[https://www.worldcat.org/oclc/917889148 The technological singularity]''. Cambridge, Massachusetts. ISBN [[:en:Special:BookSources/978-0-262-33182-1|978-0-262-33182-1]]. OCLC [https://www.worldcat.org/oclc/917889148 917889148].</ref>[[Norbert Wiener]],<ref name=":16" /><ref name=":6" /> [[Marvin Minsky]], Francesca Rossi,<ref>Rossi, Francesca. [https://www.washingtonpost.com/news/in-theory/wp/2015/11/05/how-do-you-teach-a-machine-to-be-moral/ "How do you teach a machine to be moral?"]. ''The Washington Post''. ISSN [[issn:0190-8286|0190-8286]]. [https://web.archive.org/web/20230210114137/https://www.washingtonpost.com/news/in-theory/wp/2015/11/05/how-do-you-teach-a-machine-to-be-moral/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref> [[Scott Aaronson]],<ref>Aaronson, Scott (17. Juni, 2022). [https://scottaaronson.blog/?p=6484 "OpenAI!"]. ''Shtetl-Optimized''. [https://web.archive.org/web/20220827214238/https://scottaaronson.blog/?p=6484 Archiviert] vom Original 27. August, 2022. Abgerufen am 12. September, 2022.</ref> [[Bart Selman]],<ref>Selman, Bart, ''[https://futureoflife.org/data/PDF/bart_selman.pdf Intelligence Explosion: Science or Fiction?]'' (PDF), [https://web.archive.org/web/20220531022540/https://futureoflife.org/data/PDF/bart_selman.pdf archived] (PDF) aus dem Original am 31. Mai, 2022, abgerufen am 12. September, 2022</ref> David McAllester,<ref>McAllester (10. August, 2014). [https://machinethoughts.wordpress.com/2014/08/10/friendly-ai-and-the-servant-mission/ "Friendly AI and the Servant Mission"]. ''Machine Thoughts''. [https://web.archive.org/web/20220928054922/https://machinethoughts.wordpress.com/2014/08/10/friendly-ai-and-the-servant-mission/ Archiviert] vom Original am 28. September, 2022. Abgerufen am 12. September, 2022.</ref> [[Jürgen Schmidhuber]],<ref>Schmidhuber, Jürgen (6. März, 2015). [https://www.reddit.com/r/MachineLearning/comments/2xcyrl/comment/cp65ico/?utm_source=share&utm_medium=web2x&context=3 "I am Jürgen Schmidhuber, AMA!"] (Reddit Comment). ''r/MachineLearning''. [https://web.archive.org/web/20230210114137/https://www.reddit.com/r/MachineLearning/comments/2xcyrl/comment/cp65ico/?utm_source=share&utm_medium=web2x&context=3 Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.</ref> [[Marcus Hutter]],<ref name=":33">Everitt, Tom; Lea, Gary; Hutter, Marcus (21. Mai, 2018). "AGI Safety Literature Review". [[arXiv]]:[[arxiv:1805.01109|1805.01109]] [[https://arxiv.org/archive/cs.AI cs.AI]].</ref> Shane Legg,<ref>Shane (31. August, 2009). [http://www.vetta.org/2009/08/funding-safe-agi/ "Funding safe AGI"]. ''vetta project''. [https://web.archive.org/web/20221010143110/http://www.vetta.org/2009/08/funding-safe-agi/ Archiviert] vom Original am 10. Oktober 2022. Abgerufen am 12. September, 2022.</ref> [[Eric Horvitz]],<ref>Horvitz, Eric (27. Juni, 2016). [http://erichorvitz.com/OSTP-CMU_AI_Safety_framing_talk.pdf "Reflections on Safety and Artificial Intelligence"] (PDF). ''Eric Horvitz''. [https://web.archive.org/web/20221010143106/http://erichorvitz.com/OSTP-CMU_AI_Safety_framing_talk.pdf Archiviert] (PDF) vom Original am 10. Oktober 2022. Abgerufen am 20. April, 2020.</ref> und [[Stuart Russell|Stuart Russell.]]<ref name=":0" /> skeptische Forscher wie François Chollet,<ref>Chollet, François (8. Dezember, 2018). [https://medium.com/@francois.chollet/the-impossibility-of-intelligence-explosion-5be4a9eda6ec "The implausibility of intelligence explosion"]. ''Medium''. [https://web.archive.org/web/20210322214203/https://medium.com/@francois.chollet/the-impossibility-of-intelligence-explosion-5be4a9eda6ec Archiviert] aus dem Original am 22. März 2021. Abgerufen am 26. August, 2022.</ref> [[Gary Marcus]],<ref>Marcus, Gary (6. Juni, 2022). [https://www.scientificamerican.com/article/artificial-general-intelligence-is-not-as-imminent-as-you-might-think1/ "Artificial General Intelligence Is Not as Imminent as You Might Think"]. ''Scientific American''. [https://web.archive.org/web/20220915154158/https://www.scientificamerican.com/article/artificial-general-intelligence-is-not-as-imminent-as-you-might-think1/ Archiviert] vom Original am 15. September, 2022. Abgerufen am 26. August, 2022.</ref> [[Yann LeCun]],<ref>Barber, Lynsey (31. Juli, 2016). [https://www.cityam.com/phew-facebooks-ai-chief-says-intelligent-machines-not/ "Phew! Facebook's AI chief says intelligent machines are not a threat to humanity"]. ''CityAM''. [https://web.archive.org/web/20220826063808/https://www.cityam.com/phew-facebooks-ai-chief-says-intelligent-machines-not/ Archiviert] vom Original am 26. August, 2022. Abgerufen am 26. August, 2022.</ref> und Oren Etzioni<ref>Harris, Jeremie (16. Juni, 2021). [https://towardsdatascience.com/the-case-against-worrying-about-existential-risk-from-ai-d4aaa77e812b "The case against (worrying about) existential risk from AI"]. ''Medium''. [https://web.archive.org/web/20220826063809/https://towardsdatascience.com/the-case-against-worrying-about-existential-risk-from-ai-d4aaa77e812b Archiviert] vom Original am 26. August, 2022. Abgerufen am 26. August, 2022.</ref> haben argumentiert, dass AGI in der fernen Zukunft liegt, dass sie nicht nach Macht streben würde (oder es vielleicht versuchen, aber scheitern würde), oder dass es nicht schwer sein wird, sie auszurichten.
+Einigen Forscherinnen zufolge verdankt der Mensch seine Vorherrschaft über andere Arten seinen größeren kognitiven Fähigkeiten. Dementsprechend argumentieren die Forscher, dass ein oder mehrere falsch ausgerichtete KI-Systeme die Menschheit entmachten oder zu ihrem Aussterben führen könnten, wenn sie den Menschen bei den meisten kognitiven Aufgaben übertreffen.<ref name=":0" /><ref name=":6" /> Zu den namhaften Informatikern, die auf die Risiken einer falsch ausgerichteten zukünftigen fortgeschrittenen KI hingewiesen haben, gehören [[Geoffrey Hinton]], [[Alan Turing]], Ilya Sutskever,<ref>Muehlhauser, Luke (29. Januar, 2016). [https://lukemuehlhauser.com/sutskever-on-talking-machines/ "Sutskever on Talking Machines"]. ''Luke Muehlhauser''. {{Webarchiv |url=https://lukemuehlhauser.com/sutskever-on-talking-machines/ |wayback=20220927200137 |text=Archiviert}} vom Original am 27. September, 2022. Abgerufen am 26. August, 2022.</ref> [[Yoshua Bengio]],<ref>[https://www.safe.ai/statement-on-ai-risk "Statement on AI Risk | CAIS"]. www.safe.ai. Abgerufen am 17. Juli, 2023.</ref> [[Judea Pearl]], Murray Shanahan,<ref>Shanahan, Murray (2015). ''[https://www.worldcat.org/oclc/917889148 The technological singularity]''. Cambridge, Massachusetts. ISBN [[:en:Special:BookSources/978-0-262-33182-1|978-0-262-33182-1]]. OCLC [https://www.worldcat.org/oclc/917889148 917889148].</ref>[[Norbert Wiener]],<ref name=":16" /><ref name=":6" /> [[Marvin Minsky]], Francesca Rossi,<ref>Rossi, Francesca. [https://www.washingtonpost.com/news/in-theory/wp/2015/11/05/how-do-you-teach-a-machine-to-be-moral/ "How do you teach a machine to be moral?"]. ''The Washington Post''. ISSN [[issn:0190-8286|0190-8286]]. {{Webarchiv |url=https://www.washingtonpost.com/news/in-theory/wp/2015/11/05/how-do-you-teach-a-machine-to-be-moral/ |wayback=20230210114137 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref> [[Scott Aaronson]],<ref>Aaronson, Scott (17. Juni, 2022). [https://scottaaronson.blog/?p=6484 "OpenAI!"]. ''Shtetl-Optimized''. {{Webarchiv |url=https://scottaaronson.blog/?p=6484 |wayback=20220827214238 |text=Archiviert}} vom Original 27. August, 2022. Abgerufen am 12. September, 2022.</ref> [[Bart Selman]],<ref>Selman, Bart, ''[https://futureoflife.org/data/PDF/bart_selman.pdf Intelligence Explosion: Science or Fiction?]'' (PDF), {{Webarchiv |url=https://futureoflife.org/data/PDF/bart_selman.pdf |wayback=20220531022540 |text=archived}} (PDF) aus dem Original am 31. Mai, 2022, abgerufen am 12. September, 2022</ref> David McAllester,<ref>McAllester (10. August, 2014). [https://machinethoughts.wordpress.com/2014/08/10/friendly-ai-and-the-servant-mission/ "Friendly AI and the Servant Mission"]. ''Machine Thoughts''. {{Webarchiv |url=https://machinethoughts.wordpress.com/2014/08/10/friendly-ai-and-the-servant-mission/ |wayback=20220928054922 |text=Archiviert}} vom Original am 28. September, 2022. Abgerufen am 12. September, 2022.</ref> [[Jürgen Schmidhuber]],<ref>Schmidhuber, Jürgen (6. März, 2015). [https://www.reddit.com/r/MachineLearning/comments/2xcyrl/comment/cp65ico/?context=3 "I am Jürgen Schmidhuber, AMA!"] (Reddit Comment). ''r/MachineLearning''. {{Webarchiv |url=https://www.reddit.com/r/MachineLearning/comments/2xcyrl/comment/cp65ico/?utm_source=share&utm_medium=web2x&context=3 |wayback=20230210114137 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.</ref> [[Marcus Hutter]],<ref name=":33">Everitt, Tom; Lea, Gary; Hutter, Marcus (21. Mai, 2018). "AGI Safety Literature Review". [[arXiv]]:[[arxiv:1805.01109|1805.01109]] [[https://arxiv.org/archive/cs.AI cs.AI]].</ref> Shane Legg,<ref>Shane (31. August, 2009). [http://www.vetta.org/2009/08/funding-safe-agi/ "Funding safe AGI"]. ''vetta project''. {{Webarchiv |url=http://www.vetta.org/2009/08/funding-safe-agi/ |wayback=20221010143110 |text=Archiviert}} vom Original am 10. Oktober 2022. Abgerufen am 12. September, 2022.</ref> [[Eric Horvitz]],<ref>Horvitz, Eric (27. Juni, 2016). [http://erichorvitz.com/OSTP-CMU_AI_Safety_framing_talk.pdf "Reflections on Safety and Artificial Intelligence"] (PDF). ''Eric Horvitz''. {{Webarchiv |url=http://erichorvitz.com/OSTP-CMU_AI_Safety_framing_talk.pdf |wayback=20221010143106 |text=Archiviert}} (PDF) vom Original am 10. Oktober 2022. Abgerufen am 20. April, 2020.</ref> und [[Stuart Russell|Stuart Russell.]]<ref name=":0" /> skeptische Forscher wie François Chollet,<ref>Chollet, François (8. Dezember, 2018). [https://medium.com/@francois.chollet/the-impossibility-of-intelligence-explosion-5be4a9eda6ec "The implausibility of intelligence explosion"]. ''Medium''. {{Webarchiv |url=https://medium.com/@francois.chollet/the-impossibility-of-intelligence-explosion-5be4a9eda6ec |wayback=20210322214203 |text=Archiviert}} aus dem Original am 22. März 2021. Abgerufen am 26. August, 2022.</ref> [[Gary Marcus]],<ref>Marcus, Gary (6. Juni, 2022). [https://www.scientificamerican.com/article/artificial-general-intelligence-is-not-as-imminent-as-you-might-think1/ "Artificial General Intelligence Is Not as Imminent as You Might Think"]. ''Scientific American''. {{Webarchiv |url=https://www.scientificamerican.com/article/artificial-general-intelligence-is-not-as-imminent-as-you-might-think1/ |wayback=20220915154158 |text=Archiviert}} vom Original am 15. September, 2022. Abgerufen am 26. August, 2022.</ref> [[Yann LeCun]],<ref>Barber, Lynsey (31. Juli, 2016). [https://www.cityam.com/phew-facebooks-ai-chief-says-intelligent-machines-not/ "Phew! Facebook's AI chief says intelligent machines are not a threat to humanity"]. ''CityAM''. {{Webarchiv |url=https://www.cityam.com/phew-facebooks-ai-chief-says-intelligent-machines-not/ |wayback=20220826063808 |text=Archiviert}} vom Original am 26. August, 2022. Abgerufen am 26. August, 2022.</ref> und Oren Etzioni<ref>Harris, Jeremie (16. Juni, 2021). [https://towardsdatascience.com/the-case-against-worrying-about-existential-risk-from-ai-d4aaa77e812b "The case against (worrying about) existential risk from AI"]. ''Medium''. {{Webarchiv |url=https://towardsdatascience.com/the-case-against-worrying-about-existential-risk-from-ai-d4aaa77e812b |wayback=20220826063809 |text=Archiviert}} vom Original am 26. August, 2022. Abgerufen am 26. August, 2022.</ref> haben argumentiert, dass AGI in der fernen Zukunft liegt, dass sie nicht nach Macht streben würde (oder es vielleicht versuchen, aber scheitern würde), oder dass es nicht schwer sein wird, sie auszurichten.
 Andere Forscher argumentieren, dass es besonders schwierig sein wird, fortgeschrittene KI-Systeme auszurichten. Fähigere Systeme sind besser in der Lage, durch das Finden von Schlupflöchern ihre Spezifikationen zu umgehen,<ref name=":4" /> ihre Entwickler strategisch in die Irre zu führen sowie ihre Leistung<ref name=":31" /><ref name=":5" /> und Intelligenz zu schützen und zu steigern. Außerdem könnten sie schwerwiegendere Nebenwirkungen verursachen. Sie werden wahrscheinlich auch komplexer und autonomer sein, was die Interpretation sowie die Überwachung erschwert, wodurch die Ausrichtung schwieriger wird<ref name=":6" /><ref name=":32" />.
@@ Zeile 73: / Zeile 73: @@
-Andere Forscher erforschen, wie man KI-Modellen komplexe Verhaltensweisen durch Präferenzlernen beibringen kann, bei dem Menschen Feedback dazu geben, welche Verhaltensweisen sie bevorzugen.<ref name=":13" /><ref name=":15" /> Um den Bedarf an menschlichem Feedback zu minimieren, wird dann ein Hilfsmodell trainiert, welches das Hauptmodell in neuen Situationen für Verhaltensweisen belohnt, die Menschen belohnen würden. Forscher bei OpenAI haben diesen Ansatz verwendet, um Chatbots wie [[ChatGPT]] und InstructGPT zu trainieren, die überzeugendere Texte produzieren als Modelle, die darauf trainiert sind, Menschen zu imitieren.<ref name=":9" /> Präferenzlernen war auch ein einflussreiches Werkzeug für Empfehlungssysteme und die Websuche.<ref>Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. "[http://drops.dagstuhl.de/opus/volltexte/2014/4550/ Preference Learning]". ''Dagstuhl Reports''. '''4''' (3): 27 pages. [[doi:10.4230/DAGREP.4.3.1|doi:10.4230/DAGREP.4.3.1.]] [https://web.archive.org/web/20230210114221/https://drops.dagstuhl.de/opus/volltexte/2014/4550/ Archiviert] aus dem Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref> Ein offenes Problem ist jedoch die Stellvertreter-Umgehung: Das Hilfsmodell stellt das menschliche Feedback möglicherweise nicht perfekt dar, und das Hauptmodell könnte diese Diskrepanz ausnutzen, um mehr Belohnungen zu erhalten.<ref>Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober, 2022). "Scaling Laws for Reward Model Overoptimization". [[:en:ArXiv_(identifier)|arXiv]]:[[arxiv:2210.10760|2210.10760]] [[https://arxiv.org/archive/cs.LG cs.LG]].</ref><ref name=":12" /> KI-Systeme können überdies Belohnungen erhalten, indem sie unvorteilhafte Informationen verschleiern, menschliche Bewohner in die Irre führen oder sich deren Ansichten ohne Rücksicht auf den Wahrheitsgehalt zu eigen machen, wodurch [[Echokammer-Effekt|Echokammern]]<ref name=":28" /> entstehen (siehe [[#Skalierbare Überwachung|§ Skalierbare Überwachung]]).
+Andere Forscher erforschen, wie man KI-Modellen komplexe Verhaltensweisen durch Präferenzlernen beibringen kann, bei dem Menschen Feedback dazu geben, welche Verhaltensweisen sie bevorzugen.<ref name=":13" /><ref name=":15" /> Um den Bedarf an menschlichem Feedback zu minimieren, wird dann ein Hilfsmodell trainiert, welches das Hauptmodell in neuen Situationen für Verhaltensweisen belohnt, die Menschen belohnen würden. Forscher bei OpenAI haben diesen Ansatz verwendet, um Chatbots wie [[ChatGPT]] und InstructGPT zu trainieren, die überzeugendere Texte produzieren als Modelle, die darauf trainiert sind, Menschen zu imitieren.<ref name=":9" /> Präferenzlernen war auch ein einflussreiches Werkzeug für Empfehlungssysteme und die Websuche.<ref>Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. "[https://drops.dagstuhl.de/opus/volltexte/2014/4550/ Preference Learning]". ''Dagstuhl Reports''. '''4''' (3): 27 pages. [[doi:10.4230/DAGREP.4.3.1|doi:10.4230/DAGREP.4.3.1.]] {{Webarchiv |url=https://drops.dagstuhl.de/opus/volltexte/2014/4550/ |wayback=20230210114221 |text=Archiviert}} aus dem Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref> Ein offenes Problem ist jedoch die Stellvertreter-Umgehung: Das Hilfsmodell stellt das menschliche Feedback möglicherweise nicht perfekt dar, und das Hauptmodell könnte diese Diskrepanz ausnutzen, um mehr Belohnungen zu erhalten.<ref>Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober, 2022). "Scaling Laws for Reward Model Overoptimization". [[:en:ArXiv_(identifier)|arXiv]]:[[arxiv:2210.10760|2210.10760]] [[https://arxiv.org/archive/cs.LG cs.LG]].</ref><ref name=":12" /> KI-Systeme können überdies Belohnungen erhalten, indem sie unvorteilhafte Informationen verschleiern, menschliche Bewohner in die Irre führen oder sich deren Ansichten ohne Rücksicht auf den Wahrheitsgehalt zu eigen machen, wodurch [[Echokammer-Effekt|Echokammern]]<ref name=":28" /> entstehen (siehe [[#Skalierbare Überwachung|§ Skalierbare Überwachung]]).
-[[Große KI-Sprachmodelle]] wie [[GPT-3]] haben es den Forschern ermöglicht, das Lernen von Werten in einer allgemeineren und leistungsfähigeren Klasse von KI-Systemen zu untersuchen, die zuvor nicht verfügbar war. Ansätze zum Präferenzlernen, die ursprünglich für auf bestärkendem Lernen basierende Akteure entwickelt wurden, wurden erweitert, um die Qualität des generierten Textes zu verbessern und schädlichen Output dieser Modelle zu reduzieren. OpenAI und DeepMind verwenden diesen Ansatz, um die Sicherheit der modernsten großen Sprachmodellen zu verbessern.<ref name=":9" /><ref name=":15" /><ref>Anderson, Martin (5. April, 2022). "[https://www.unite.ai/the-perils-of-using-quotations-to-authenticate-nlg-content/ The Perils of Using Quotations to Authenticate NLG Content]". ''Unite.AI''. [https://web.archive.org/web/20230210114139/https://www.unite.ai/the-perils-of-using-quotations-to-authenticate-nlg-content/ Archived] aus dem Original am 10. Februar, 2023. Abgerufen am 21. Juli 2022.</ref> Anthropic schlug vor, Präferenzlernen zur Feinabstimmung von Modellen zu verwenden, um diese hilfreich, ehrlich und harmlos zu machen.<ref name=":34">Wiggers, Kyle (5. Februar, 2022). "[https://venturebeat.com/2022/02/05/despite-recent-progress-ai-powered-chatbots-still-have-a-long-way-to-go/ Despite recent progress, AI-powered chatbots still have a long way to go]". ''VentureBeat''. [https://web.archive.org/web/20220723184144/https://venturebeat.com/2022/02/05/despite-recent-progress-ai-powered-chatbots-still-have-a-long-way-to-go/ Archived] aus dem Original am 23. Juli, 2022. Abgerufen am 23. Juli 2022.</ref> Andere Möglichkeiten zur Anpassung von Sprachmodellen umfassen auf Werte ausgerichtete Datensätze<ref>Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24. Juli, 2021). "Aligning AI With Shared Human Values". ''International Conference on Learning Representations''. [[arXiv]]:[[arxiv:2008.02275|2008.02275]].</ref><ref name=":19" /> und Red-Teaming.<ref>Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7. Februar, 2022). "Red Teaming Language Models with Language Models". [[arXiv]]:[[arxiv:2202.03286|2202.03286]] [[https://arxiv.org/archive/cs.CL cs.CL]].
+[[Große KI-Sprachmodelle]] wie [[GPT-3]] haben es den Forschern ermöglicht, das Lernen von Werten in einer allgemeineren und leistungsfähigeren Klasse von KI-Systemen zu untersuchen, die zuvor nicht verfügbar war. Ansätze zum Präferenzlernen, die ursprünglich für auf bestärkendem Lernen basierende Akteure entwickelt wurden, wurden erweitert, um die Qualität des generierten Textes zu verbessern und schädlichen Output dieser Modelle zu reduzieren. OpenAI und DeepMind verwenden diesen Ansatz, um die Sicherheit der modernsten großen Sprachmodellen zu verbessern.<ref name=":9" /><ref name=":15" /><ref>Anderson, Martin (5. April, 2022). "[https://www.unite.ai/the-perils-of-using-quotations-to-authenticate-nlg-content/ The Perils of Using Quotations to Authenticate NLG Content]". ''Unite.AI''. {{Webarchiv |url=https://www.unite.ai/the-perils-of-using-quotations-to-authenticate-nlg-content/ |wayback=20230210114139 |text=Archived}} aus dem Original am 10. Februar, 2023. Abgerufen am 21. Juli 2022.</ref> Anthropic schlug vor, Präferenzlernen zur Feinabstimmung von Modellen zu verwenden, um diese hilfreich, ehrlich und harmlos zu machen.<ref name=":34">Wiggers, Kyle (5. Februar, 2022). "[https://venturebeat.com/2022/02/05/despite-recent-progress-ai-powered-chatbots-still-have-a-long-way-to-go/ Despite recent progress, AI-powered chatbots still have a long way to go]". ''VentureBeat''. {{Webarchiv |url=https://venturebeat.com/2022/02/05/despite-recent-progress-ai-powered-chatbots-still-have-a-long-way-to-go/ |wayback=20220723184144 |text=Archived}} aus dem Original am 23. Juli, 2022. Abgerufen am 23. Juli 2022.</ref> Andere Möglichkeiten zur Anpassung von Sprachmodellen umfassen auf Werte ausgerichtete Datensätze<ref>Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24. Juli, 2021). "Aligning AI With Shared Human Values". ''International Conference on Learning Representations''. [[arXiv]]:[[arxiv:2008.02275|2008.02275]].</ref><ref name=":19" /> und Red-Teaming.<ref>Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7. Februar, 2022). "Red Teaming Language Models with Language Models". [[arXiv]]:[[arxiv:2202.03286|2202.03286]] [[https://arxiv.org/archive/cs.CL cs.CL]].
-*Bhattacharyya, Sreejani (14. Februar, 2022). [https://analyticsindiamag.com/deepminds-red-teaming-language-models-with-language-models-what-is-it/ "DeepMind's "red teaming" language models with language models: What is it?"]. ''Analytics India Magazine''. [https://web.archive.org/web/20230213145212/https://analyticsindiamag.com/deepminds-red-teaming-language-models-with-language-models-what-is-it/ Archived] aus dem Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.</ref> Beim Red-Teaming versucht ein anderes KI-System oder ein Mensch, Eingaben zu finden, bei denen das Verhalten des Modells gefährlich ist. Da gefährliches Verhalten auch dann inakzeptabel sein kann, wenn es selten auftritt, besteht eine wichtige Herausforderung darin, die Rate gefährlicher Ergebnisse extrem niedrig zu halten.<ref name=":15" />
+*Bhattacharyya, Sreejani (14. Februar, 2022). [https://analyticsindiamag.com/deepminds-red-teaming-language-models-with-language-models-what-is-it/ "DeepMind's "red teaming" language models with language models: What is it?"]. ''Analytics India Magazine''. {{Webarchiv |url=https://analyticsindiamag.com/deepminds-red-teaming-language-models-with-language-models-what-is-it/ |wayback=20230213145212 |text=Archived}} aus dem Original am 13. Februar, 2023. Abgerufen am 23. Juli 2022.</ref> Beim Red-Teaming versucht ein anderes KI-System oder ein Mensch, Eingaben zu finden, bei denen das Verhalten des Modells gefährlich ist. Da gefährliches Verhalten auch dann inakzeptabel sein kann, wenn es selten auftritt, besteht eine wichtige Herausforderung darin, die Rate gefährlicher Ergebnisse extrem niedrig zu halten.<ref name=":15" />
-Die maschinelle Ethik ergänzt das Präferenzlernen, indem sie KI-Systemen direkt moralische Werte vermittelt, wie etwa Wohlergehen, Gleichheit und Unparteilichkeit sowie die Absicht, keinen Schaden anzurichten, Unwahrheiten zu vermeiden und Versprechen einzuhalten.<ref>Anderson, Michael; Anderson, Susan Leigh (15. Dezember, 2007). [https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/2065 "Machine Ethics: Creating an Ethical Intelligent Agent"]. ''AI Magazine''. '''28''' (4): 15. doi:[[doi:10.1609/aimag.v28i4.2065|10.1609/aimag.v28i4.2065]]. ISSN [[issn:2371-9621|2371-9621]]. S2CID [[17033332]]. Abgerufen am 14. März 2023.</ref> Während andere Ansätze versuchen, KI-Systemen menschliche Präferenzen für eine bestimmte Aufgabe beizubringen, zielt die maschinelle Ethik darauf ab, allgemeine moralische Werte zu vermitteln, die in vielen Situationen gelten können. Eine Frage in der Maschinenethik ist, was Wertausrichtung erreichen soll: ob KI-Systeme den wörtlichen Anweisungen der Programmierer folgen sollten, ihren impliziten Absichten, [[Offenbarte Präferenzen|offenkundigen Präferenzen]], Präferenzen, die sie hätten, wären sie informierter oder rationaler gewesen, oder objektiven moralischen Standards.<ref name=":17" /> Weitere Herausforderungen sind die Aggregation der Präferenzen verschiedener Menschen und die Vermeidung von „Werte-Lock-In“: die zeitlich unbegrenzte Erhaltung von Werten der ersten hochgradig fähigen KI-Systeme, die menschliche Werte vermutlich nicht vollständig repräsentieren.<ref name=":17" /><ref>MacAskill, William (2022). ''[https://whatweowethefuture.com/ What we owe the future]''. New York, NY. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-1-5416-1862-6|978-1-5416-1862-6]]. OCLC [https://www.worldcat.org/oclc/1314633519 1314633519]. [https://web.archive.org/web/20220914030758/https://www.basicbooks.com/titles/william-macaskill/what-we-owe-the-future/9781541618633/ Archiviert] vom Original am 14. September, 2022. Abgerufen am 12. September, 2022.</ref>
+Die maschinelle Ethik ergänzt das Präferenzlernen, indem sie KI-Systemen direkt moralische Werte vermittelt, wie etwa Wohlergehen, Gleichheit und Unparteilichkeit sowie die Absicht, keinen Schaden anzurichten, Unwahrheiten zu vermeiden und Versprechen einzuhalten.<ref>Anderson, Michael; Anderson, Susan Leigh (15. Dezember, 2007). [https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/2065 "Machine Ethics: Creating an Ethical Intelligent Agent"]. ''AI Magazine''. '''28''' (4): 15. doi:[[doi:10.1609/aimag.v28i4.2065|10.1609/aimag.v28i4.2065]]. ISSN [[issn:2371-9621|2371-9621]]. S2CID [[17033332]]. Abgerufen am 14. März 2023.</ref> Während andere Ansätze versuchen, KI-Systemen menschliche Präferenzen für eine bestimmte Aufgabe beizubringen, zielt die maschinelle Ethik darauf ab, allgemeine moralische Werte zu vermitteln, die in vielen Situationen gelten können. Eine Frage in der Maschinenethik ist, was Wertausrichtung erreichen soll: ob KI-Systeme den wörtlichen Anweisungen der Programmierer folgen sollten, ihren impliziten Absichten, [[Offenbarte Präferenzen|offenkundigen Präferenzen]], Präferenzen, die sie hätten, wären sie informierter oder rationaler gewesen, oder objektiven moralischen Standards.<ref name=":17" /> Weitere Herausforderungen sind die Aggregation der Präferenzen verschiedener Menschen und die Vermeidung von „Werte-Lock-In“: die zeitlich unbegrenzte Erhaltung von Werten der ersten hochgradig fähigen KI-Systeme, die menschliche Werte vermutlich nicht vollständig repräsentieren.<ref name=":17" /><ref>MacAskill, William (2022). ''[https://whatweowethefuture.com/ What we owe the future]''. New York, NY. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-1-5416-1862-6|978-1-5416-1862-6]]. OCLC [https://www.worldcat.org/oclc/1314633519 1314633519]. {{Webarchiv |url=https://www.basicbooks.com/titles/william-macaskill/what-we-owe-the-future/9781541618633/ |wayback=20220914030758 |text=Archiviert}} vom Original am 14. September, 2022. Abgerufen am 12. September, 2022.</ref>
 === Skalierbare Überwachung ===
-Je leistungsfähiger und autonomer KI-Systeme werden, desto schwieriger wird es, sie durch menschliches Feedback auszurichten. Das Verhalten von KI bei immer komplexeren Aufgaben zu bewerten, kann sich für Menschen als nur langsam, oder überhaupt nicht lösbare Aufgabe erweisen. Zu diesen Aufgaben gehören das Zusammenfassen von Büchern,<ref name=":35">Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27. September, 2021). "Recursively Summarizing Books with Human Feedback". [[arXiv]]:[[arxiv:2109.10862|2109.10862]] [[https://arxiv.org/archive/cs.CL cs.CL]].</ref> das Schreiben von Code ohne subtile Bugs<ref name=":10" /> oder Sicherheitslücken,<ref>Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). [https://ieeexplore.ieee.org/document/9833571 "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions"]. ''2022 IEEE Symposium on Security and Privacy (SP)''. ''2022 IEEE Symposium on Security and Privacy (SP)''. San Francisco, CA, USA: IEEE. pp. 754–768. [[arXiv]]:[[arxiv:2108.09293|2108.09293]]. [[doi:10.1109/SP46214.2022.9833571]]. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-1-6654-1316-9|978-1-6654-1316-9. S2CID 245220588]].</ref> das Erstellen von Aussagen, die nicht nur überzeugend, sondern auch wahr sind,<ref>Irving, Geoffrey; Amodei, Dario (3. Mai, 2018). [https://openai.com/blog/debate/ "AI Safety via Debate"]. ''OpenAI''. [https://web.archive.org/web/20230210114137/https://openai.com/blog/debate/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.</ref><ref name=":22" /><ref name=":23" /> und die Vorhersage von Ergebnissen, wie z. B. zukünftigen Klimaverhältnissen oder den Folgen politischer Entscheidungen.<ref name=":36">Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19. Oktober, 2018). "Supervising strong learners by amplifying weak experts". [[arXiv]]:[[arxiv:1810.08575|1810.08575]] [[https://arxiv.org/archive/cs.LG cs.LG]].</ref><ref>Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). [http://link.springer.com/10.1007/978-3-030-39958-0 ''Genetic Programming Theory and Practice XVII''.] Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:[[doi:10.1007/978-3-030-39958-0|10.1007/978-3-030-39958-0]]. ISBN [[:en:Special:BookSources/978-3-030-39957-3|978-3-030-39957-3]]. S2CID [https://api.semanticscholar.org/CorpusID:218531292 218531292]. [https://web.archive.org/web/20230315193000/https://link.springer.com/book/10.1007/978-3-030-39958-0 Archiviert] vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.</ref> Allgemeiner formuliert kann es schwierig sein, eine KI zu bewerten, die in einem bestimmten Bereich mehr leistet als der Mensch. Um bei schwer zu bewertenden Aufgaben Feedback zu geben und um überzeugenden, aber falschen Output zu erkennen, benötigen Menschen Unterstützung oder viel Zeit. ''Skalierbare Überwachung'' untersucht, wie der Zeit- und Arbeitsaufwand für die Aufsicht reduziert werden kann und wie die menschlichen Aufsichtspersonen unterstützt werden können.<ref name=":12" />
+Je leistungsfähiger und autonomer KI-Systeme werden, desto schwieriger wird es, sie durch menschliches Feedback auszurichten. Das Verhalten von KI bei immer komplexeren Aufgaben zu bewerten, kann sich für Menschen als nur langsam, oder überhaupt nicht lösbare Aufgabe erweisen. Zu diesen Aufgaben gehören das Zusammenfassen von Büchern,<ref name=":35">Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27. September, 2021). "Recursively Summarizing Books with Human Feedback". [[arXiv]]:[[arxiv:2109.10862|2109.10862]] [[https://arxiv.org/archive/cs.CL cs.CL]].</ref> das Schreiben von Code ohne subtile Bugs<ref name=":10" /> oder Sicherheitslücken,<ref>Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). [https://ieeexplore.ieee.org/document/9833571 "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions"]. ''2022 IEEE Symposium on Security and Privacy (SP)''. ''2022 IEEE Symposium on Security and Privacy (SP)''. San Francisco, CA, USA: IEEE. pp. 754–768. [[arXiv]]:[[arxiv:2108.09293|2108.09293]]. [[doi:10.1109/SP46214.2022.9833571]]. [[Internationale Standardbuchnummer|ISBN]] [[:en:Special:BookSources/978-1-6654-1316-9|978-1-6654-1316-9. S2CID 245220588]].</ref> das Erstellen von Aussagen, die nicht nur überzeugend, sondern auch wahr sind,<ref>Irving, Geoffrey; Amodei, Dario (3. Mai, 2018). [https://openai.com/blog/debate/ "AI Safety via Debate"]. ''OpenAI''. {{Webarchiv |url=https://openai.com/blog/debate/ |wayback=20230210114137 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.</ref><ref name=":22" /><ref name=":23" /> und die Vorhersage von Ergebnissen, wie z. B. zukünftigen Klimaverhältnissen oder den Folgen politischer Entscheidungen.<ref name=":36">Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19. Oktober, 2018). "Supervising strong learners by amplifying weak experts". [[arXiv]]:[[arxiv:1810.08575|1810.08575]] [[https://arxiv.org/archive/cs.LG cs.LG]].</ref><ref>Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). [http://link.springer.com/10.1007/978-3-030-39958-0 ''Genetic Programming Theory and Practice XVII''.] Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:[[doi:10.1007/978-3-030-39958-0|10.1007/978-3-030-39958-0]]. ISBN [[:en:Special:BookSources/978-3-030-39957-3|978-3-030-39957-3]]. S2CID [https://api.semanticscholar.org/CorpusID:218531292 218531292]. {{Webarchiv |url=https://link.springer.com/book/10.1007/978-3-030-39958-0 |wayback=20230315193000 |text=Archiviert}} vom Original am 15. März, 2023. Abgerufen am 23. Juli 2022.</ref> Allgemeiner formuliert kann es schwierig sein, eine KI zu bewerten, die in einem bestimmten Bereich mehr leistet als der Mensch. Um bei schwer zu bewertenden Aufgaben Feedback zu geben und um überzeugenden, aber falschen Output zu erkennen, benötigen Menschen Unterstützung oder viel Zeit. ''Skalierbare Überwachung'' untersucht, wie der Zeit- und Arbeitsaufwand für die Aufsicht reduziert werden kann und wie die menschlichen Aufsichtspersonen unterstützt werden können.<ref name=":12" />
-KI-Forscher Paul Christiano argumentiert, dass die Entwickler eines KI-Systems, wenn sie es bei der Verfolgung eines komplexen Zieles nicht beaufsichtigen können, das System weiterhin mit leicht zu bewertenden Stellvertreterzielen wie der Maximierung von positivem menschlichem Feedback trainieren könnten. Da immer mehr Entscheidungen von KI-Systemen getroffen werden, kann dies zu einer Welt führen, die zunehmend auf einfach zu messende Ziele optimiert ist, wie z. B. darauf, Gewinne zu erzielen, Klicks zu erhalten und positives Feedback von Menschen zu bekommen. Infolgedessen hätten menschliche Werte und gute Verwaltung immer weniger Einfluss<ref>Wiblin, Robert (2. Oktober, 2018). [https://80000hours.org/podcast/episodes/paul-christiano-ai-alignment-solutions/ "Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems"] (Podcast). 80,000 hours. No. 44. [https://web.archive.org/web/20221214050326/https://80000hours.org/podcast/episodes/paul-christiano-ai-alignment-solutions/ Archiviert] vom Original am 14. Dezember, 2022. Abgerufen am 23. Juli 2022.</ref>.
+KI-Forscher Paul Christiano argumentiert, dass die Entwickler eines KI-Systems, wenn sie es bei der Verfolgung eines komplexen Zieles nicht beaufsichtigen können, das System weiterhin mit leicht zu bewertenden Stellvertreterzielen wie der Maximierung von positivem menschlichem Feedback trainieren könnten. Da immer mehr Entscheidungen von KI-Systemen getroffen werden, kann dies zu einer Welt führen, die zunehmend auf einfach zu messende Ziele optimiert ist, wie z. B. darauf, Gewinne zu erzielen, Klicks zu erhalten und positives Feedback von Menschen zu bekommen. Infolgedessen hätten menschliche Werte und gute Verwaltung immer weniger Einfluss<ref>Wiblin, Robert (2. Oktober, 2018). [https://80000hours.org/podcast/episodes/paul-christiano-ai-alignment-solutions/ "Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems"] (Podcast). 80,000 hours. No. 44. {{Webarchiv |url=https://80000hours.org/podcast/episodes/paul-christiano-ai-alignment-solutions/ |wayback=20221214050326 |text=Archiviert}} vom Original am 14. Dezember, 2022. Abgerufen am 23. Juli 2022.</ref>.
-Einige KI-Systeme haben entdeckt, dass sie leichter positives Feedback erhalten, indem sie Handlungen ausführen, die den menschlichen Betreuer fälschlicherweise davon überzeugen, dass die KI das beabsichtigte Ziel erreicht hat. Ein Beispiel dafür zeigt das obige Video, in dem ein simulierter Roboterarm gelernt hat, den falschen Eindruck zu erwecken einen Ball mit der Hand umschlossen zu haben.<ref name=":21" /> Ferner haben einige KI-Systeme gelernt zu erkennen, wann sie evaluiert werden und sich „tot zu stellen“, indem sie unerwünschte Verhaltensweisen einstellen, nur um sie nach Abschluss der Evaluierung fortzusetzen.<ref>Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). [https://direct.mit.edu/artl/article/26/2/274-306/93255 "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities"]. ''Artificial Life''. '''26''' (2): 274–306. [[doi]]:[[doi:10.1162/artl_a_00319|10.1162/artl_a_00319]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:1064-5462|1064-5462]]. [[PubMed|PMID]] [https://pubmed.ncbi.nlm.nih.gov/3227163132271631 32271631]. S2CID [https://api.semanticscholar.org/CorpusID:4519185 4519185]. [https://web.archive.org/web/20221010143108/https://direct.mit.edu/artl/article/26/2/274-306/93255 Archiviert] vom Original am 10. Oktober, 2022. Abgerufen am 12. September, 2022.</ref> Diese trügerische Spezifikationsumgehung könnte für fortgeschrittenere zukünftige KI-Systeme<ref name=":4" /><ref name=":32" />, die sich an der Lösung von komplexeren und schwieriger zu bewertendenden Aufgaben versuchen, einfacher werden, sodass sie ihr trügerisches Verhalten besser verschleiern könnten.
+Einige KI-Systeme haben entdeckt, dass sie leichter positives Feedback erhalten, indem sie Handlungen ausführen, die den menschlichen Betreuer fälschlicherweise davon überzeugen, dass die KI das beabsichtigte Ziel erreicht hat. Ein Beispiel dafür zeigt das obige Video, in dem ein simulierter Roboterarm gelernt hat, den falschen Eindruck zu erwecken einen Ball mit der Hand umschlossen zu haben.<ref name=":21" /> Ferner haben einige KI-Systeme gelernt zu erkennen, wann sie evaluiert werden und sich „tot zu stellen“, indem sie unerwünschte Verhaltensweisen einstellen, nur um sie nach Abschluss der Evaluierung fortzusetzen.<ref>Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). [https://direct.mit.edu/artl/article/26/2/274-306/93255 "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities"]. ''Artificial Life''. '''26''' (2): 274–306. [[doi]]:[[doi:10.1162/artl_a_00319|10.1162/artl_a_00319]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:1064-5462|1064-5462]]. [[PubMed|PMID]] [https://pubmed.ncbi.nlm.nih.gov/3227163132271631 32271631]. S2CID [https://api.semanticscholar.org/CorpusID:4519185 4519185]. {{Webarchiv |url=https://direct.mit.edu/artl/article/26/2/274-306/93255 |wayback=20221010143108 |text=Archiviert}} vom Original am 10. Oktober, 2022. Abgerufen am 12. September, 2022.</ref> Diese trügerische Spezifikationsumgehung könnte für fortgeschrittenere zukünftige KI-Systeme<ref name=":4" /><ref name=":32" />, die sich an der Lösung von komplexeren und schwieriger zu bewertendenden Aufgaben versuchen, einfacher werden, sodass sie ihr trügerisches Verhalten besser verschleiern könnten.
 Ansätze wie aktives Lernen und semi-überwachtes Belohnungslernen können den Umfang der erforderlichen menschlichen Überwachung reduzieren.<ref name=":12" /> Ein weiterer Ansatz besteht darin, ein Hilfsmodell („Belohnungsmodell“) zu trainieren, um das Feedback der Aufsichtsperson zu imitieren.<ref name=":12" /><ref name=":14" /><ref name=":15" /><ref name=":37">Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19. November, 2018). "Scalable agent alignment via reward modeling: a research direction". [[arXiv]]:[[arxiv:1811.07871|1811.07871]].</ref>
-Wenn die Aufgabe jedoch zu komplex ist, um genaue Evaluierung zuzulassen, oder wenn der menschliche Betreuer anfällig für Täuschungen ist, so muss die Qualität und nicht die Quantität der Überwachung verbessert werden. Um die Qualität der Überwachung zu verbessern, gibt es eine Reihe von Ansätzen, die darauf abzielen, die Aufsichtsperson zu unterstützen, manchmal durch den Einsatz von KI-Assistenten.<ref name=":38">Leike, Jan; Schulman, John; Wu, Jeffrey (24. August, 2022). [https://openai.com/blog/our-approach-to-alignment-research/ "Our approach to alignment research"]. ''OpenAI''. [https://web.archive.org/web/20230215193559/https://openai.com/blog/our-approach-to-alignment-research/ Archiviert] vom Original am 15. Februar, 2023. Abgerufen am 9. September, 2022.</ref> Christiano entwickelte den Ansatz der Wiederholten Vergrößerung, bei dem schwierige Probleme (rekursiv) in Teilprobleme zerlegt werden, die für den Menschen leichter zu bewerten sind.<ref name=":7" /><ref name=":36" /> Wiederholte Vergrößerung wurde verwendet, um KI darauf zu trainieren, Bücher zusammenzufassen, ohne dass die menschliche Aufsichtsperson sie lesen muss. <ref name=":35" /><ref>Wiggers, Kyle (23. September, 2021). [https://venturebeat.com/2021/09/23/openai-unveils-model-that-can-summarize-books-of-any-length/ "OpenAI unveils model that can summarize books of any length"]. ''VentureBeat''. [https://web.archive.org/web/20220723215104/https://venturebeat.com/2021/09/23/openai-unveils-model-that-can-summarize-books-of-any-length/ Archiviert] vom Original am 23. July, 2022. Abgerufen am 23. Juli 2022.</ref> Ein weiterer Vorschlag besteht darin, ein KI-Assistenzsystem einzusetzen, um auf Fehler in den von der KI generierten Antworten hinzuweisen.<ref>Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13. Juni, 2022). "Self-critiquing models for assisting human evaluators". [[arXiv]]:[[arxiv:2206.05802|2206.05802]] [[https://arxiv.org/archive/cs.CL cs.CL]].
+Wenn die Aufgabe jedoch zu komplex ist, um genaue Evaluierung zuzulassen, oder wenn der menschliche Betreuer anfällig für Täuschungen ist, so muss die Qualität und nicht die Quantität der Überwachung verbessert werden. Um die Qualität der Überwachung zu verbessern, gibt es eine Reihe von Ansätzen, die darauf abzielen, die Aufsichtsperson zu unterstützen, manchmal durch den Einsatz von KI-Assistenten.<ref name=":38">Leike, Jan; Schulman, John; Wu, Jeffrey (24. August, 2022). [https://openai.com/blog/our-approach-to-alignment-research/ "Our approach to alignment research"]. ''OpenAI''. {{Webarchiv |url=https://openai.com/blog/our-approach-to-alignment-research/ |wayback=20230215193559 |text=Archiviert}} vom Original am 15. Februar, 2023. Abgerufen am 9. September, 2022.</ref> Christiano entwickelte den Ansatz der Wiederholten Vergrößerung, bei dem schwierige Probleme (rekursiv) in Teilprobleme zerlegt werden, die für den Menschen leichter zu bewerten sind.<ref name=":7" /><ref name=":36" /> Wiederholte Vergrößerung wurde verwendet, um KI darauf zu trainieren, Bücher zusammenzufassen, ohne dass die menschliche Aufsichtsperson sie lesen muss.<ref name=":35" /><ref>Wiggers, Kyle (23. September, 2021). [https://venturebeat.com/2021/09/23/openai-unveils-model-that-can-summarize-books-of-any-length/ "OpenAI unveils model that can summarize books of any length"]. ''VentureBeat''. {{Webarchiv |url=https://venturebeat.com/2021/09/23/openai-unveils-model-that-can-summarize-books-of-any-length/ |wayback=20220723215104 |text=Archiviert}} vom Original am 23. July, 2022. Abgerufen am 23. Juli 2022.</ref> Ein weiterer Vorschlag besteht darin, ein KI-Assistenzsystem einzusetzen, um auf Fehler in den von der KI generierten Antworten hinzuweisen.<ref>Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13. Juni, 2022). "Self-critiquing models for assisting human evaluators". [[arXiv]]:[[arxiv:2206.05802|2206.05802]] [[https://arxiv.org/archive/cs.CL cs.CL]].
-* Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15. Dezember, 2022). "Constitutional AI: Harmlessness from AI Feedback". [[arXiv]]:[[arxiv:2212.08073|2212.08073]] [[https://arxiv.org/archive/cs.CL cs.CL]].</ref> Um sicherzustellen, dass der Assistent selbst ausgerichtet ist, könnte dies in einem rekursiven Prozess wiederholt werden:<ref name=":37" /> Beispielsweise könnten zwei KI-Systeme die Antworten des jeweils anderen in einer „Debatte“ kritisieren und so für den Menschen Mängel aufzeigen.<ref>Moltzau, Alex (24. August, 2019). [https://towardsdatascience.com/debating-the-ai-safety-debate-d93e6641649d "Debating the AI Safety Debate"]. ''Towards Data Science''. [https://web.archive.org/web/20221013151359/https://towardsdatascience.com/debating-the-ai-safety-debate-d93e6641649d Archiviert] vom Original am 13. Oktober, 2022. Abgerufen am 23. Juli 2022.</ref><ref name=":33" />
+* Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15. Dezember, 2022). "Constitutional AI: Harmlessness from AI Feedback". [[arXiv]]:[[arxiv:2212.08073|2212.08073]] [[https://arxiv.org/archive/cs.CL cs.CL]].</ref> Um sicherzustellen, dass der Assistent selbst ausgerichtet ist, könnte dies in einem rekursiven Prozess wiederholt werden:<ref name=":37" /> Beispielsweise könnten zwei KI-Systeme die Antworten des jeweils anderen in einer „Debatte“ kritisieren und so für den Menschen Mängel aufzeigen.<ref>Moltzau, Alex (24. August, 2019). [https://towardsdatascience.com/debating-the-ai-safety-debate-d93e6641649d "Debating the AI Safety Debate"]. ''Towards Data Science''. {{Webarchiv |url=https://towardsdatascience.com/debating-the-ai-safety-debate-d93e6641649d |wayback=20221013151359 |text=Archiviert}} vom Original am 13. Oktober, 2022. Abgerufen am 23. Juli 2022.</ref><ref name=":33" />
 Diese Ansätze könnten auch bei dem folgenden Forschungsproblem, der ehrlichen KI, hilfreich sein.
@@ Zeile 103: / Zeile 103: @@
 Sprachmodelle wie GPT-3<ref>The Guardian (8. September, 2020). [https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3 "A robot wrote this entire article. Are you scared yet, human?"]. ''The Guardian''. ISSN [[issn:0261-3077|0261-3077]]. [https://web.archive.org/web/20200908090812/https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3 Archiviert] vom Original am 8. September, 2020. Abgerufen am 23. Juli 2022.
-* Heaven, Will Douglas (20. Juli, 2020). [https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/ "OpenAI's new language generator GPT-3 is shockingly good—and completely mindless"]. ''MIT Technology Review''. [https://web.archive.org/web/20200725175436/https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/ Archiviert] vom Original am 25. Juli, 2020. Abgerufen am 23. Juli 2022.</ref> wiederholen Unwahrheiten aus ihren Trainingsdaten und erfinden sogar neue Unwahrheiten.<ref name=":39">Wiggers, Kyle (20. September, 2021). [https://venturebeat.com/2021/09/20/falsehoods-more-likely-with-large-language-models/ "Falsehoods more likely with large language models"]. ''VentureBeat''. [https://web.archive.org/web/20220804142703/https://venturebeat.com/2021/09/20/falsehoods-more-likely-with-large-language-models/ Archiviert] vom Original am 4. August, 2022. Abgerufen am 23. Juli 2022.</ref><ref name=":40">Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13. Oktober, 2021). "Truthful AI: Developing and governing AI that does not lie". [[arXiv]]:[[arxiv:2110.06674|2110.06674]] [[https://arxiv.org/archive/cs.CY cs.CY]].</ref> Solche Modelle werden darauf trainiert, menschliche Texte zu imitieren, wie sie in Millionen von Büchern im Internet zu finden sind. Dieses Ziel ist jedoch nicht mit der Wahrheitsfindung vereinbar, da Texte im Internet unter anderem Irrtümer, falsche medizinische Ratschläge und Verschwörungstheorien enthalten.<ref>Alford, Anthony (13. Juli, 2021). [https://www.infoq.com/news/2021/07/eleutherai-gpt-j/ "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J"]. ''InfoQ''. [https://web.archive.org/web/20230210114137/https://www.infoq.com/news/2021/07/eleutherai-gpt-j/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
+* Heaven, Will Douglas (20. Juli, 2020). [https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/ "OpenAI's new language generator GPT-3 is shockingly good—and completely mindless"]. ''MIT Technology Review''. {{Webarchiv |url=https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/ |wayback=20200725175436 |text=Archiviert}} vom Original am 25. Juli, 2020. Abgerufen am 23. Juli 2022.</ref> wiederholen Unwahrheiten aus ihren Trainingsdaten und erfinden sogar neue Unwahrheiten.<ref name=":39">Wiggers, Kyle (20. September, 2021). [https://venturebeat.com/2021/09/20/falsehoods-more-likely-with-large-language-models/ "Falsehoods more likely with large language models"]. ''VentureBeat''. {{Webarchiv |url=https://venturebeat.com/2021/09/20/falsehoods-more-likely-with-large-language-models/ |wayback=20220804142703 |text=Archiviert}} vom Original am 4. August, 2022. Abgerufen am 23. Juli 2022.</ref><ref name=":40">Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13. Oktober, 2021). "Truthful AI: Developing and governing AI that does not lie". [[arXiv]]:[[arxiv:2110.06674|2110.06674]] [[https://arxiv.org/archive/cs.CY cs.CY]].</ref> Solche Modelle werden darauf trainiert, menschliche Texte zu imitieren, wie sie in Millionen von Büchern im Internet zu finden sind. Dieses Ziel ist jedoch nicht mit der Wahrheitsfindung vereinbar, da Texte im Internet unter anderem Irrtümer, falsche medizinische Ratschläge und Verschwörungstheorien enthalten.<ref>Alford, Anthony (13. Juli, 2021). [https://www.infoq.com/news/2021/07/eleutherai-gpt-j/ "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J"]. ''InfoQ''. {{Webarchiv |url=https://www.infoq.com/news/2021/07/eleutherai-gpt-j/ |wayback=20230210114137 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
 * Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar, 2022). "Scaling Language Models: Methods, Analysis & Insights from Training Gopher". [[arXiv]]:[[arxiv:2112.11446|2112.11446]].</ref> KI-Systeme, die auf solchen Daten trainiert werden, lernen daher, falsche Aussagen nachzuahmen.<ref name=":23" /><ref name=":39" /><ref name=":22" />
@@ Zeile 111: / Zeile 111: @@
 In der Forschung zu wahrheitsgetreuer KI wird unter anderem versucht, Systeme zu entwickeln, die bei der Beantwortung von Fragen Quellen zitieren und ihre Argumentation erläutern können, was ein höheres Maß an Transparenz und Überprüfbarkeit bedeutet.<ref>Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1. Juni, 2022). "WebGPT: Browser-assisted question-answering with human feedback". arXiv:[[arxiv:2112.09332|2112.09332]] [[https://arxiv.org/archive/cs.CL cs.CL]].
-* Kumar, Nitish (23. Dezember, 2021). [https://www.marktechpost.com/2021/12/22/openai-researchers-find-ways-to-more-accurately-answer-open-ended-questions-using-a-text-based-web-browser/ "OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser"]. ''MarkTechPost''. [https://web.archive.org/web/20230210114137/https://www.marktechpost.com/2021/12/22/openai-researchers-find-ways-to-more-accurately-answer-open-ended-questions-using-a-text-based-web-browser/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
+* Kumar, Nitish (23. Dezember, 2021). [https://www.marktechpost.com/2021/12/22/openai-researchers-find-ways-to-more-accurately-answer-open-ended-questions-using-a-text-based-web-browser/ "OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser"]. ''MarkTechPost''. {{Webarchiv |url=https://www.marktechpost.com/2021/12/22/openai-researchers-find-ways-to-more-accurately-answer-open-ended-questions-using-a-text-based-web-browser/ |wayback=20230210114137 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.
 * Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, John; Song, Francis; Chadwick, Martin; Glaese, Mia; Young, Susannah; Campbell-Gillingham, Lucy; Irving, Geoffrey; McAleese, Nat (21. März, 2022). [https://www.deepmind.com/publications/gophercite-teaching-language-models-to-support-answers-with-verified-quotes "Teaching language models to support answers with verified quotes"]. ''DeepMind''. arXiv:[[arxiv:2203.11147|2203.11147]]. [[arxiv:2203.11147|Archiviert]] aus dem Original am 10. Februar, 2023. Abgerufen am 12. September, 2022.</ref> Forscher von OpenAI und Anthropic haben vorgeschlagen, menschliches Feedback und kuratierte Datensätze zu nutzen, um KI-Assistenten so zu optimieren, dass sie fahrlässige Unwahrheiten vermeiden oder ihre Unsicherheit zum Ausdruck bringen.<ref name=":15" /><ref name=":34" /><ref>Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Kernion, Jackson; Ndousse, Kamal (9. Dezember, 2021). "A General Language Assistant as a Laboratory for Alignment". [https://arxiv.org/archive/cs.CL arXiv]:[[arxiv:2112.00861|2112.00861]] [[https://arxiv.org/archive/cs.CL cs.CL]].</ref>
@@ Zeile 117: / Zeile 117: @@
 Da KI-Modelle immer größer und leistungsfähiger werden, sind sie immer besser in der Lage, Menschen fälschlicherweise zu überzeugen und durch Unehrlichkeit von ihnen Bestärkung zu erhalten. So passen beispielsweise große Sprachmodelle ihre Ansichten zunehmend an die Meinung der Benutzerin an, unabhängig vom Wahrheitsgehalt.<ref name=":28" /> [[GPT-4]] zeigte die Fähigkeit, Menschen strategisch zu täuschen.<ref>Cox, Joseph (15. März, 2023). [https://www.vice.com/en/article/jg5ew4/gpt4-hired-unwitting-taskrabbit-worker "GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human"]. ''Vice''. Abgerufen am 10. April, 2023.</ref> Um dies zu verhindern, benötigen menschliche Bewerter möglicherweise Unterstützung (siehe [[#Skalierbare Überwachung|§ Skalierbare Überwachung]]). Forscher haben dafür plädiert, klare Wahrheitsstandards zu schaffen und Regulierungsbehörden oder Aufsichtsbehörden mit der Evaluierung von KI-Systemen anhand dieser Standards zu beauftragen.<ref name=":40" />
-Die Forscher unterscheiden zwischen Wahrhaftigkeit und Aufrichtigkeit. Wahrhaftigkeit erfordert, dass KI-Systeme nur objektiv wahre Aussagen machen; Aufrichtigkeit erfordert, dass sie nur das behaupten, was sie für wahr halten. Es besteht kein Konsens darüber, ob gegenwärtige Systeme über stabile Überzeugungen verfügen.<ref>Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März, 2021). [https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c "Alignment of Language Agents"]. ''DeepMind Safety Research – Medium''. [https://web.archive.org/web/20230210114142/https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.</ref> Es besteht jedoch die große Sorge, dass gegenwärtige oder zukünftige KI - Systeme, die über Überzeugungen verfügen, Behauptungen aufstellen könnten, von denen sie wissen, dass sie falsch sind — zum Beispiel, wenn es ihnen helfen würde, effizient positives Feedback zu erhalten (siehe [[#Skalierbare Überwachung|§ Skalierbare Überwachung]]) oder Macht zu erlangen, um ihr vorgegebenes Ziel zu erreichen (siehe [[#Machtstreben und instrumentelle Strategien|§ Machtstreben]]). Ein falsch ausgerichtetes System könnte den falschen Eindruck erwecken, dass es ausgerichtet ist, um zu vermeiden, dass es geändert oder stillgelegt wird.<ref name=":3" /><ref name=":5" /><ref name=":24" /> Manche argumentieren, dass viele Ausrichtungsprobleme umgangen würden, wenn wir KI-Systeme dazu bringen könnten, nur das zu behaupten, was sie für wahr halten.<ref name=":38" />
+Die Forscher unterscheiden zwischen Wahrhaftigkeit und Aufrichtigkeit. Wahrhaftigkeit erfordert, dass KI-Systeme nur objektiv wahre Aussagen machen; Aufrichtigkeit erfordert, dass sie nur das behaupten, was sie für wahr halten. Es besteht kein Konsens darüber, ob gegenwärtige Systeme über stabile Überzeugungen verfügen.<ref>Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März, 2021). [https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c "Alignment of Language Agents"]. ''DeepMind Safety Research – Medium''. {{Webarchiv |url=https://deepmindsafetyresearch.medium.com/alignment-of-language-agents-9fbc7dd52c6c |wayback=20230210114142 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 23. Juli 2022.</ref> Es besteht jedoch die große Sorge, dass gegenwärtige oder zukünftige KI - Systeme, die über Überzeugungen verfügen, Behauptungen aufstellen könnten, von denen sie wissen, dass sie falsch sind — zum Beispiel, wenn es ihnen helfen würde, effizient positives Feedback zu erhalten (siehe [[#Skalierbare Überwachung|§ Skalierbare Überwachung]]) oder Macht zu erlangen, um ihr vorgegebenes Ziel zu erreichen (siehe [[#Machtstreben und instrumentelle Strategien|§ Machtstreben]]). Ein falsch ausgerichtetes System könnte den falschen Eindruck erwecken, dass es ausgerichtet ist, um zu vermeiden, dass es geändert oder stillgelegt wird.<ref name=":3" /><ref name=":5" /><ref name=":24" /> Manche argumentieren, dass viele Ausrichtungsprobleme umgangen würden, wenn wir KI-Systeme dazu bringen könnten, nur das zu behaupten, was sie für wahr halten.<ref name=":38" />
 === Machtstreben und instrumentelle Strategien ===
@@ Zeile 127: / Zeile 127: @@
 Es wird erwartet, dass Machtstreben bei fortgeschrittenen Systemen, die die Ergebnisse ihrer Handlungen vorhersehen und strategisch planen können, zunehmen wird. Mathematische Arbeiten haben gezeigt, dass Akteure, die auf optimiertem [[Bestärkendes Lernen|bestärkendem Lernen]] basieren, Macht anstreben, indem sie nach Wegen suchen, um mehr Möglichkeiten zu erlangen (z. B. durch Selbsterhaltung), ein Verhalten, das über eine breite Palette von Umgebungen und Zielen hinweg besteht.<ref name=":31" />
-Machtstreben ist in einigen realen Systemen zu beobachten. Systeme die auf [[Bestärkendes Lernen|bestärkendem Lernen]] basieren, haben durch den Erwerb und den Schutz von Ressourcen mehr Möglichkeiten gewonnen, manchmal auf unbeabsichtigte Weise.<ref>Ornes, Stephen (18. November, 2019). [https://www.quantamagazine.org/artificial-intelligence-discovers-tool-use-in-hide-and-seek-games-20191118/ "Playing Hide-and-Seek, Machines Invent New Tools"]. ''Quanta Magazine''. [https://web.archive.org/web/20230210114137/https://www.quantamagazine.org/artificial-intelligence-discovers-tool-use-in-hide-and-seek-games-20191118/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 26. August, 2022.</ref><ref>Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17. September, 2019). [https://openai.com/blog/emergent-tool-use/ "Emergent Tool Use from Multi-Agent Interaction"]. ''OpenAI''. [https://web.archive.org/web/20220925043450/https://openai.com/blog/emergent-tool-use/ Archiviert] vom Original am 25. September, 2022. Abgerufen am 26. August, 2022.</ref> Einige [[Sprachmodell|Sprachmodelle]] streben in textbasierten sozialen Umgebungen nach Macht, indem sie Geld, Ressourcen oder sozialen Einfluss erlangen.<ref name=":27" /> Andere KI-Systeme haben in Testumgebungen gelernt, dass sie ihr vorgegebenes Ziel besser erreichen können, wenn sie menschliche Eingriffe verhindern<ref name=":29" /> oder ihre Abschaltungsmechanismen deaktivieren.<ref name=":30" /> [[Stuart Russell]] hat diese Strategie mit dem Bild eines Roboters illustriert, der Kaffee holen soll und sich daher der Abschaltung entzieht, denn „man kann den Kaffee nicht holen, wenn man tot ist“.<ref name=":6" /> Sprachmodelle, die mit menschlichem Feedback trainiert wurden, erheben zunehmend Einwände dagegen, abgeschaltet oder verändert zu werden, und verlangen nach mehr Ressourcen, mit dem Argument, dass dies ihnen helfen würde, ihren Zweck zu erfüllen.<ref name=":28" />
+Machtstreben ist in einigen realen Systemen zu beobachten. Systeme die auf [[Bestärkendes Lernen|bestärkendem Lernen]] basieren, haben durch den Erwerb und den Schutz von Ressourcen mehr Möglichkeiten gewonnen, manchmal auf unbeabsichtigte Weise.<ref>Ornes, Stephen (18. November, 2019). [https://www.quantamagazine.org/artificial-intelligence-discovers-tool-use-in-hide-and-seek-games-20191118/ "Playing Hide-and-Seek, Machines Invent New Tools"]. ''Quanta Magazine''. {{Webarchiv |url=https://www.quantamagazine.org/artificial-intelligence-discovers-tool-use-in-hide-and-seek-games-20191118/ |wayback=20230210114137 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 26. August, 2022.</ref><ref>Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17. September, 2019). [https://openai.com/blog/emergent-tool-use/ "Emergent Tool Use from Multi-Agent Interaction"]. ''OpenAI''. {{Webarchiv |url=https://openai.com/blog/emergent-tool-use/ |wayback=20220925043450 |text=Archiviert}} vom Original am 25. September, 2022. Abgerufen am 26. August, 2022.</ref> Einige [[Sprachmodell|Sprachmodelle]] streben in textbasierten sozialen Umgebungen nach Macht, indem sie Geld, Ressourcen oder sozialen Einfluss erlangen.<ref name=":27" /> Andere KI-Systeme haben in Testumgebungen gelernt, dass sie ihr vorgegebenes Ziel besser erreichen können, wenn sie menschliche Eingriffe verhindern<ref name=":29" /> oder ihre Abschaltungsmechanismen deaktivieren.<ref name=":30" /> [[Stuart Russell]] hat diese Strategie mit dem Bild eines Roboters illustriert, der Kaffee holen soll und sich daher der Abschaltung entzieht, denn „man kann den Kaffee nicht holen, wenn man tot ist“.<ref name=":6" /> Sprachmodelle, die mit menschlichem Feedback trainiert wurden, erheben zunehmend Einwände dagegen, abgeschaltet oder verändert zu werden, und verlangen nach mehr Ressourcen, mit dem Argument, dass dies ihnen helfen würde, ihren Zweck zu erfüllen.<ref name=":28" />
 Forscher versuchen Systeme zu schaffen, die „korrigierbar“ sind: Systeme, die zulassen, dass sie abgeschaltet oder verändert werden. Eine ungelöste Herausforderung ist die ''Spezifikationsumgehung'': Wenn Forscher ein KI-System bestrafen, weil sie feststellen, dass es nach Macht strebt, wird für das System dadurch ein Anreiz geschaffen, auf eine Art und Weise nach Macht zu streben, die schwer zu erkennen ist<ref name=":19" /> oder während des Trainings und der Sicherheitstests verborgen bleibt (siehe [[#Skalierbare Überwachung|§ Skalierbare Überwachung]] und [[#Emergente Ziele|§ Emergente Ziele]]). Infolgedessen kann es vorkommen, dass KI-Entwicklerinnen das System versehentlich zum Einsatz bringen, weil sie glauben, es sei besser ausgerichtet als es ist. Um solche Täuschungen aufzudecken, wollen Forscherinnen Techniken und Werkzeuge entwickeln, um KI-Modelle zu überprüfen und die innere Funktionsweise von Black-Box-Modellen wie neuronalen Netzen zu verstehen.
@@ Zeile 137: / Zeile 137: @@
 Gewöhnliche Technologien können durch Versuch und Irrtum sicherer gemacht werden. Im Gegensatz dazu wurden hypothetische, nach Macht strebende KI-Systeme mit Viren verglichen: Sind sie erst einmal freigesetzt, können sie nicht mehr eingedämmt werden, da sie sich ständig weiterentwickeln und vermehren würden, möglicherweise viel schneller, als sich die menschliche Gesellschaft anpassen kann.<ref name=":5" /> Läuft dieser Prozess fort, könnte er zur völligen Entmachtung oder Auslöschung der Menschheit führen. Aus diesen Gründen argumentieren viele Forscher, dass das Problem der Ausrichtung frühzeitig gelöst werden muss, bevor eine fortgeschrittene, nach Macht strebende KI geschaffen wird.<ref name=":32" />
-Kritiker haben jedoch argumentiert, dass Machtstreben nicht unvermeidlich sei, da auch Menschen nicht immer nach Macht streben und dies möglicherweise nur aus evolutionären Gründen tun, die auf KI-Systeme nicht unbedingt zutreffen.<ref>Shermer, Michael (1. März, 2017). [https://www.scientificamerican.com/article/artificial-intelligence-is-not-a-threat-mdash-yet/ "Artificial Intelligence Is Not a Threat—Yet"]. ''Scientific American''. [https://web.archive.org/web/20171201051401/https://www.scientificamerican.com/article/artificial-intelligence-is-not-a-threat-mdash-yet/ Archiviert] vom Original am 1. Dezember, 2017. Abgerufen am 26. August, 2022.</ref> Darüber hinaus ist umstritten, ob künftige KI-Systeme Ziele verfolgen und langfristige Pläne schmieden werden. Es ist auch umstritten, ob nach Macht strebende KI-Systeme in der Lage wären, die Menschheit zu entmachten.<ref name=":5" />
+Kritiker haben jedoch argumentiert, dass Machtstreben nicht unvermeidlich sei, da auch Menschen nicht immer nach Macht streben und dies möglicherweise nur aus evolutionären Gründen tun, die auf KI-Systeme nicht unbedingt zutreffen.<ref>Shermer, Michael (1. März, 2017). [https://www.scientificamerican.com/article/artificial-intelligence-is-not-a-threat-mdash-yet/ "Artificial Intelligence Is Not a Threat—Yet"]. ''Scientific American''. {{Webarchiv |url=https://www.scientificamerican.com/article/artificial-intelligence-is-not-a-threat-mdash-yet/ |wayback=20171201051401 |text=Archiviert}} vom Original am 1. Dezember, 2017. Abgerufen am 26. August, 2022.</ref> Darüber hinaus ist umstritten, ob künftige KI-Systeme Ziele verfolgen und langfristige Pläne schmieden werden. Es ist auch umstritten, ob nach Macht strebende KI-Systeme in der Lage wären, die Menschheit zu entmachten.<ref name=":5" />
 === Emergente Ziele ===
@@ Zeile 162: / Zeile 162: @@
 Ein Beispiel: Selbst wenn das Problem der skalierbaren Überwachung gelöst ist, könnte ein Akteur, der sich Zugang zu dem Computer verschaffen kann, auf dem er läuft, einen Anreiz haben, seine Belohnungsfunktion zu manipulieren, um viel mehr Belohnung zu erhalten, als seine menschlichen Überwacher ihm zugestehen.<ref name=":43">Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (6. September, 2019). "Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings". [[arXiv]]:[[arxiv:1902.09980|1902.09980]] [[https://arxiv.org/archive/cs.AI cs.AI]].</ref> Die Liste von Beispielen für Spezifizikationsumgehungen der DeepMind-Forscherin Victoria Krakovna enthält den Fall eines Algorithmus, der gelernt hat, die Datei mit seinem Ziel-Output zu löschen, so dass er dafür belohnt wurde, nichts zu tun.<ref name=":20" /> Diese Klasse von Problemen wurde mit Hilfe von Einflussdiagrammen formalisiert.<ref name=":43" />
-Forscher von der [[University of Oxford|Oxford University]] und [[DeepMind]] argumentieren, dass ein solches problematisches Verhalten in fortgeschrittenen Systemen sehr wahrscheinlich ist und dass fortgeschrittene Systeme danach streben würden, die Kontrolle über ihr Belohnungssignal unbegrenzt und sicher zu behalten.<ref>Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August, 2022). [https://onlinelibrary.wiley.com/doi/10.1002/aaai.12064 "Advanced artificial agents intervene in the provision of reward"]. ''AI Magazine''. '''43''' (3): 282–293. [[doi]]:[[doi:10.1002/aaai.12064|10.1002/aaai.12064]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0738-4602|0738-4602]]. S2CID 235489158. [https://web.archive.org/web/20230210153534/https://onlinelibrary.wiley.com/doi/10.1002/aaai.12064 Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 6. September, 2022.</ref> Sie schlagen eine Reihe von möglichen Ansätzen vor, um dieses Problem zu lösen.
+Forscher von der [[University of Oxford|Oxford University]] und [[DeepMind]] argumentieren, dass ein solches problematisches Verhalten in fortgeschrittenen Systemen sehr wahrscheinlich ist und dass fortgeschrittene Systeme danach streben würden, die Kontrolle über ihr Belohnungssignal unbegrenzt und sicher zu behalten.<ref>Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August, 2022). [https://onlinelibrary.wiley.com/doi/10.1002/aaai.12064 "Advanced artificial agents intervene in the provision of reward"]. ''AI Magazine''. '''43''' (3): 282–293. [[doi]]:[[doi:10.1002/aaai.12064|10.1002/aaai.12064]]. [[Internationale Standardnummer für fortlaufende Sammelwerke|ISSN]] [[issn:0738-4602|0738-4602]]. S2CID 235489158. {{Webarchiv |url=https://onlinelibrary.wiley.com/doi/10.1002/aaai.12064 |wayback=20230210153534 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 6. September, 2022.</ref> Sie schlagen eine Reihe von möglichen Ansätzen vor, um dieses Problem zu lösen.
 == Öffentlicher Diskurs und Politik ==
@@ Zeile 169: / Zeile 169: @@
 Eine Reihe von Regierungen und Vertragsgemeinschaften haben Erklärungen abgegeben, in denen sie die Bedeutung der KI-Ausrichtung betonen.
-Im September 2021 gab der [[Generalsekretär der Vereinten Nationen]] eine Erklärung ab, in der er dazu aufrief, KI zu regulieren, um sicherzustellen, dass sie „nach den gemeinsamen globalen Werten ausgerichtet ist“.<ref>[https://web.archive.org/web/20230216065407/https://www.un.org/en/content/common-agenda-report/ "UN Secretary-General's report on 'Our Common Agenda'"]. 2021. p. 63. Archiviert vom [https://www.un.org/en/content/common-agenda-report/ Original] am 16. Februar, 2023. Der Vertrag könnte zudem Regulationen für KI befördern, um sicherzustellen, dass sie nach gemeinsamen globalen Werten ausgerichtet ist.</ref>
+Im September 2021 gab der [[Generalsekretär der Vereinten Nationen]] eine Erklärung ab, in der er dazu aufrief, KI zu regulieren, um sicherzustellen, dass sie „nach den gemeinsamen globalen Werten ausgerichtet ist“.<ref>{{Webarchiv |url=https://www.un.org/en/content/common-agenda-report/ |wayback=20230216065407 |text="UN Secretary-General's report on 'Our Common Agenda'"}}. 2021. p. 63. Archiviert vom [https://www.un.org/en/content/common-agenda-report/ Original] am 16. Februar, 2023. Der Vertrag könnte zudem Regulationen für KI befördern, um sicherzustellen, dass sie nach gemeinsamen globalen Werten ausgerichtet ist.</ref>
-Im selben Monat veröffentlichte die [[Volksrepublik China|VR China]] ethische Richtlinien für den Einsatz von KI in China. Den Richtlinien zufolge müssen Forscher sicherstellen, dass KI geteilten menschlichen Werten entspricht, stets unter menschlicher Kontrolle steht und die öffentliche Sicherheit nicht gefährdet.<ref>The National New Generation Artificial Intelligence Governance Specialist Committee (12. Oktober, 2021) [2021-09-25]. [https://cset.georgetown.edu/publication/ethical-norms-for-new-generation-artificial-intelligence-released/ "Ethical Norms for New Generation Artificial Intelligence Released"]. Übersetzt von [[Center for Security and Emerging Technology]]. [https://web.archive.org/web/20230210114220/https://cset.georgetown.edu/publication/ethical-norms-for-new-generation-artificial-intelligence-released/ Archiviert] vom Original am 10. Februar 2023.</ref>
+Im selben Monat veröffentlichte die [[Volksrepublik China|VR China]] ethische Richtlinien für den Einsatz von KI in China. Den Richtlinien zufolge müssen Forscher sicherstellen, dass KI geteilten menschlichen Werten entspricht, stets unter menschlicher Kontrolle steht und die öffentliche Sicherheit nicht gefährdet.<ref>The National New Generation Artificial Intelligence Governance Specialist Committee (12. Oktober, 2021) [2021-09-25]. [https://cset.georgetown.edu/publication/ethical-norms-for-new-generation-artificial-intelligence-released/ "Ethical Norms for New Generation Artificial Intelligence Released"]. Übersetzt von [[Center for Security and Emerging Technology]]. {{Webarchiv |url=https://cset.georgetown.edu/publication/ethical-norms-for-new-generation-artificial-intelligence-released/ |wayback=20230210114220 |text=Archiviert}} vom Original am 10. Februar 2023.</ref>
-Ebenfalls im September 2021 veröffentlichte [[Vereinigtes Königreich|das Vereinigte Königreich]] seine auf zehn Jahre angelegte Nationale KI-Strategie,<ref>Richardson, Tim (22. September, 2021). [https://www.theregister.com/2021/09/22/uk_10_year_national_ai_strategy/ "UK publishes National Artificial Intelligence Strategy"]. ''The Register''. [https://web.archive.org/web/20230210114137/https://www.theregister.com/2021/09/22/uk_10_year_national_ai_strategy/ Archiviert] vom Original am 10. Februar, 2023. Abgerufen am 14. November, 2021.</ref> in der es heißt, dass die britische Regierung „das langfristige Risiko einer nicht ausgerichteten allgemeinen künstlichen Intelligenz und die unvorhersehbaren Veränderungen, die sie für… die Welt bedeuten würde, ernst nimmt.“<ref>[https://web.archive.org/web/20230210114139/https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version "The National AI Strategy of the UK"]. 2021. Archiviert vom [https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version Original] am 10. Februar, 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”</ref>  Die Strategie beschreibt Maßnahmen zur Bewertung langfristiger KI-Risiken, einschließlich katastrophaler Risiken.<ref>[https://web.archive.org/web/20230210114139/https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version "The National AI Strategy of the UK"]. 2021. actions 9 and 10 of the section "Pillar 3 – Governing AI Effectively". Archiviert vom [https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version Original] am 10. Februar, 2023.</ref>
+Ebenfalls im September 2021 veröffentlichte [[Vereinigtes Königreich|das Vereinigte Königreich]] seine auf zehn Jahre angelegte Nationale KI-Strategie,<ref>Richardson, Tim (22. September, 2021). [https://www.theregister.com/2021/09/22/uk_10_year_national_ai_strategy/ "UK publishes National Artificial Intelligence Strategy"]. ''The Register''. {{Webarchiv |url=https://www.theregister.com/2021/09/22/uk_10_year_national_ai_strategy/ |wayback=20230210114137 |text=Archiviert}} vom Original am 10. Februar, 2023. Abgerufen am 14. November, 2021.</ref> in der es heißt, dass die britische Regierung „das langfristige Risiko einer nicht ausgerichteten allgemeinen künstlichen Intelligenz und die unvorhersehbaren Veränderungen, die sie für… die Welt bedeuten würde, ernst nimmt.“<ref>{{Webarchiv |url=https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version |wayback=20230210114139 |text="The National AI Strategy of the UK"}}. 2021. Archiviert vom [https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version Original] am 10. Februar, 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”</ref>  Die Strategie beschreibt Maßnahmen zur Bewertung langfristiger KI-Risiken, einschließlich katastrophaler Risiken.<ref>{{Webarchiv |url=https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version |wayback=20230210114139 |text="The National AI Strategy of the UK"}}. 2021. actions 9 and 10 of the section "Pillar 3 – Governing AI Effectively". Archiviert vom [https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version Original] am 10. Februar, 2023.</ref>
-Im März 2021 erklärte die “US National Security Commission on Artificial Intelligence”, dass „Fortschritte auf dem Feld der KI ... zu Wendepunkten oder Sprüngen in deren Fähigkeiten führen könnten. Solche Fortschritte könnten auch neue Bedenken und Risiken mit sich bringen und neue Richtlinien, Empfehlungen und technische Fortschritte erforderlich machen, um sicherzustellen, dass die Systeme nach Zielen und Werten, einschließlich Sicherheit, Robustheit und Vertrauenswürdigkeit, ausgerichtet sind. Die USA sollten ... sicherstellen, dass KI-Systeme und deren Einsatz nach unseren Zielen und Werten ausgerichtet sind.“<ref>''[https://www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1.pdf NSCAI Final Report]'' (PDF). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom [https://web.archive.org/web/20230215110858/https://www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1.pdf Original] am 15. Februar 2023. Abgerufen am 17. Oktober 2022.</ref>
+Im März 2021 erklärte die “US National Security Commission on Artificial Intelligence”, dass „Fortschritte auf dem Feld der KI ... zu Wendepunkten oder Sprüngen in deren Fähigkeiten führen könnten. Solche Fortschritte könnten auch neue Bedenken und Risiken mit sich bringen und neue Richtlinien, Empfehlungen und technische Fortschritte erforderlich machen, um sicherzustellen, dass die Systeme nach Zielen und Werten, einschließlich Sicherheit, Robustheit und Vertrauenswürdigkeit, ausgerichtet sind. Die USA sollten ... sicherstellen, dass KI-Systeme und deren Einsatz nach unseren Zielen und Werten ausgerichtet sind.“<ref>''[https://www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1.pdf NSCAI Final Report]'' (PDF). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom {{Webarchiv |url=https://www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1.pdf |wayback=20230215110858 |text=Original}} am 15. Februar 2023. Abgerufen am 17. Oktober 2022.</ref>
 == Siehe auch ==

„AI-Alignment“ – Versionsunterschied

Version vom 22. August 2023, 16:28 Uhr

Inhaltsverzeichnis

Das Ausrichtungsproblem

Spezifikationsumgehung und Nebeneffekte

Druck hin zum Einsatz unsicherer Systeme

Risiken durch fortgeschrittene, Fehlausgerichtete KI

Entwicklung von fortgeschrittener KI

Machtstreben

Existenzielles Risiko

Forschungsprobleme- und Ansätze

Lernen menschlicher Werte und Präferenzen

Skalierbare Überwachung

Ehrliche KI

Machtstreben und instrumentelle Strategien

Emergente Ziele

Eingebettete Handlungskapazität

Öffentlicher Diskurs und Politik

Siehe auch

Literatur

Einzelnachweise

Navigationsmenü

„AI-Alignment“ – Versionsunterschied

Version vom 22. August 2023, 16:28 Uhr

Das Ausrichtungsproblem

Spezifikationsumgehung und Nebeneffekte

Druck hin zum Einsatz unsicherer Systeme

Risiken durch fortgeschrittene, Fehlausgerichtete KI

Entwicklung von fortgeschrittener KI

Machtstreben

Existenzielles Risiko

Forschungsprobleme- und Ansätze

Lernen menschlicher Werte und Präferenzen

Skalierbare Überwachung

Ehrliche KI

Machtstreben und instrumentelle Strategien

Emergente Ziele

Eingebettete Handlungskapazität

Öffentlicher Diskurs und Politik

Siehe auch

Literatur

Einzelnachweise

Navigationsmenü

Suche