AI Red-Teaming

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Der Einsatz von Red Teaming bei Large Language Models ermöglicht es, die Agilität und Verhaltensweise von LM-Sprachmodellen besser zu verstehen und sie auf potenzielle schädliche Verhaltensweisen zu testen[1][2]. Dabei werden ähnliche Konzepte wie beim Red Teaming im physischen Sicherheitsbereich angewendet, um realistische Angriffsszenarien zu entwickeln und die Reaktion der Sprachmodelle auf diese zu überprüfen.[3] Automatisierte Tests und maschinelles Lernen werden in diesem Zusammenhang verwendet, um unerwartete Verhaltensweisen und Schwachstellen in den Modellen zu identifizieren.[4]

AI Red-Teaming als Begriff wurde im Oktober 2023 im Zuge einer Executive Order des Weißen Hauses eingeführt, die darauf abzielt, KI sicherer zu machen. Es unterscheidet sich von klassischem Red Teaming dadurch, dass hier nicht nur Sicherheitsaspekte untersucht werden, sondern auch allgemeine Risiken wie mangelnde Korrektheit der Antworten eines Sprachmodells, Halluzinationen, toxische oder vulgäre Ausgaben und die Fähigkeit, gefährliche Inhalte zu generieren. Die Executive Order verlangt von Unternehmen, rigorose unabhängige Überprüfungen ihrer KI-Systeme durchzuführen und die Testergebnisse mit der Regierung zu teilen. Dazu werden Richtlinien und Benchmarks zur Bewertung und Prüfung von KI-Fähigkeiten entwickelt, um sicherzustellen, dass diese keine Schäden verursachen können.[5]

  • Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving: Red Teaming Language Models with Language Models. Februar 2022, arxiv:2202.03286 (englisch).
  • Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, Andy Jones, Sam Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield-Dodds, Tom Henighan, Danny Hernandez, Tristan Hume, Josh Jacobson, Scott Johnston, Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei, Tom Brown, Nicholas Joseph, Sam McCandlish, Chris Olah, Jared Kaplan, Jack Clark: Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned. August 2022, doi:10.48550/arXiv.2209.07858 (englisch).
  • Jiahao Yu, Xingwei Lin, Zheng Yu, Xinyu Xing: GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts. September 2023, doi:10.48550/arXiv.2309.10253 (englisch).
  • Mukai Li, Lei Li, Yuwei Yin, Masood Ahmed, Zhenguang Liu, Qi Liu: Red Teaming Visual Language Models. Januar 2024, doi:10.48550/arXiv.2401.12915 (englisch).
  • Zhang-Wei Hong, Idan Shenfeld, Tsun-Hsuan Wang, Yung-Sung Chuang, Aldo Pareja, James Glass, Akash Srivastava, Pulkit Agrawal: Curiosity-driven Red-teaming for Large Language Models. Februar 2024, doi:10.48550/arXiv.2402.19464 (englisch).

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Kira Hutchinson: Red Teaming Agility (Briefing Charts). Defense Technical Information Center, Fort Belvoir, VA 1. Juni 2014 (dtic.mil [abgerufen am 7. Februar 2024]).
  2. RedTeamer IT Security: Eine Analyse von Red Teaming von Sprachmodellen: Aufdecken und Beheben schädlicher Verhaltensweisen. 20. Juli 2023, abgerufen am 20. Juli 2023 (deutsch).
  3. Erin E. Bonar, Harold Rosenberg: Using the health belief model to predict injecting drug users' intentions to employ harm reduction strategies. In: Addictive Behaviors. Band 36, Nr. 11, November 2011, ISSN 0306-4603, S. 1038–1044 (arxiv.org [PDF; abgerufen am 20. Juli 2023]).
  4. Problem Solving, Simulation, and Computational Red Teaming. In: Simulation and Computational Red Teaming for Problem Solving. 18. Oktober 2019, S. 1–9, doi:10.1002/9781119527183.ch1 (eingeschränkte Vorschau in der Google-Buchsuche).
  5. Weißes Haus: Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. 30. Oktober 2023, abgerufen am 22. Juni 2024 (amerikanisches Englisch).