Prompt Engineering

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Prompt Engineering ist ein Konzept der künstlichen Intelligenz (KI), insbesondere der Verarbeitung natürlicher Sprache (englisch: natural language processing (NLP)) (Computerlinguistik). Beim Prompt Engineering wird die Beschreibung der Aufgabe, die von der KI erledigt werden soll, in das Eingabe-Feld geschrieben, z. B. als Frage, statt implizit vorgegeben. Prompt Engineering funktioniert typischerweise, indem es eine oder mehrere Aufgaben in einen prompt-basierten Datensatz umwandelt und ein Sprachmodell mit dem sogenannten „prompt-basierten Lernen“ trainiert.

Die Sprachmodelle GPT-2 und GPT-3 waren wichtige Schritte im Prompt Engineering. Im Jahr 2021 zeigte das Multitask Prompt Engineering unter Verwendung mehrerer NLP-Datensätze eine gute Leistung bei neuen Aufgaben.[1]

Die breite Zugänglichkeit dieser Tools wurde durch die Veröffentlichung mehrerer Open-Source-Projekt-Notizen und von der Community geführter Projekte zur Bildsynthese vorangetrieben.[2]

Im Jahr 2022 wurden Modelle für maschinelles Lernen (ML) wie DALL-E 2, Stable Diffusion und Midjourney für die Öffentlichkeit freigegeben. Diese Modelle verwenden Anweisungen in Text-Form (englisch: text prompts) als Eingabe und verwenden diese, um Bilder zu erzeugen, was eine neue Kategorie des Gestaltens mittels Texten (englisch: prompt engineering) im Zusammenhang mit der Text-zu-Bild-Anregung (englisch: text-to-image prompting) erschuf.[3]

Nutzerschnittstelle[Bearbeiten | Quelltext bearbeiten]

Die Nutzung von Prompts zur Steuerung von KI ändert nach Jakob Nielsen zum dritten Mal in der Computergeschichte die Denkweise von Dateneingaben: Auf die Batch-Verarbeitung und die befehlsbasierte Interaktion folge nun die absichtsbasierte Ergebnisspezifikation, bei der Benutzer dem Computer sagen, was sie wollen, und nicht, wie er es tun soll.[4]

Text Prompting[Bearbeiten | Quelltext bearbeiten]

Chain-of-thought (Gedankenkette)[Bearbeiten | Quelltext bearbeiten]

Chain-of-thought prompting ist eine Prompt-Engineering-Technik, die darauf abzielt, die Argumentationsfähigkeit großer Sprachmodelle (LLMs) zu verbessern, indem sie sie dazu veranlasst, eine Reihe von Zwischenschritten zu generieren, die zur endgültigen Antwort eines mehrstufigen Problems führen.[5] Während LLMs bei verschiedenen Aufgaben zur Verarbeitung natürlicher Sprache eine beeindruckende Leistung zeigen, haben sie immer noch Schwierigkeiten bei einigen Denkaufgaben, die logisches Denken und mehrere Lösungsschritte erfordern, wie etwa arithmetische Fragen oder Fragen zum gesunden Menschenverstand.[6][7][8]

Bestandteile eines Text-Prompt[Bearbeiten | Quelltext bearbeiten]

Typische Bestandteile eines Text-Prompt umfassen Rolle, Tonalität, Kontext, Aufgabenstellung und Ausgabeformat.

Prompt Injection[Bearbeiten | Quelltext bearbeiten]

Das Verwenden spezifischer Texteingaben, um an Hintergrundinformationen oder nicht zur Veröffentlichung bestimmte Ausgaben der Sprachmodelle zu gelangen wird Prompt Injection genannt. Forscherinnen und Forscher widmen sich deren Vermeidung, verwerfen dies aber auch als nicht gänzlich lösbares Problem.[9][10]

Nicht-Text Prompting[Bearbeiten | Quelltext bearbeiten]

Text-zu-Bild[Bearbeiten | Quelltext bearbeiten]

Die Modelle des maschinellen Lernens (ML) wie DALL-E 2, Stable Diffusion und Midjourney verwenden Texteingabeaufforderungen (Prompts) und generieren daraus Bilder, wodurch eine neue Kategorie der Eingabeaufforderungstechnik im Zusammenhang mit Text-zu-Bild-Eingabeaufforderungen eingeführt wurde.[11]

Ein Text-zu-Bild-Prompt kann die Beschreibung des künstlerischen Motivs (beispielsweise leuchtend orange Mohnblumen), das bevorzugte Medium (etwa digitale Malerei oder Fotografie), den gewählten Stil (zum Beispiel hyperrealistisch oder Pop-Art), die Art der Beleuchtung (wie Randbeleuchtung oder Dämmerungslicht) sowie Farbe und Beschaffenheit enthalten. Dadurch lassen sich präzisere Ergebnisse erzielen.[12]

Kombination von Text-Grafischen Nutzerschnittstelle (GUI)[Bearbeiten | Quelltext bearbeiten]

Die KI-Forschung von Meta Segment Anything veröffentlichte 2023, ein Modell, das eine Bildsegmentierung durch Eingabeaufforderung durchführen kann. Es unterstützt drei Formen der Eingabeaufforderung: einzuschließende und auszuschließende Punkte, Begrenzungsrahmen und Auswahlen.[13]

Mit der Funktion „Vary (Variieren)“ haben Benutzer von Midjourney die Möglichkeit, bestimmte Teile eines Bildes auszuwählen und diese mithilfe von Texteingabeaufforderungen zu ändern. Benutzer können beispielsweise einen Teil des Bildes auswählen, der ihnen nicht gefällt, und ihn mithilfe einer Eingabeaufforderung umwandeln. Das Tool bietet auch die Möglichkeit, Elemente hinzuzufügen, beispielsweise das Hinzufügen von Accessoires zu einem Porträt. Dieser Vorgang wird in anderen Werkzeugen als „Inpainting“ bezeichnet.[14]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Victor Sanh; Albert Webson; Colin Raffel; et al.: Multitask Prompted Training Enables Zero-Shot Task Generalization (PDF). 15. Oktober 2021; (englisch).
  2. Vivian Liu, Lydia Chilton: Design Guidelines for Prompt Engineering Text-to-Image Generative Models. In: ACM Digital Library. Association for Computing Machinery, abgerufen am 26. Oktober 2022 (englisch).
  3. Jim Clyde Monge: Dall-E2 VS Stable Diffusion: Same Prompt, Different Results. In: MLearning.ai. 25. August 2022, abgerufen am 31. August 2022 (englisch).
  4. Jakob Nielsen: AI Is First New UI Paradigm in 60 Years. In: jakobnielsenphd.substack.com. 22. Juni 2023, abgerufen am 29. Juni 2023 (englisch).
  5. Zachary McAuliffe: Google's Latest AI Model Can Be Taught How to Solve Problems. In: CNET. Abgerufen am 10. März 2023 (englisch).
  6. Ekta Dang: Harnessing the power of GPT-3 in scientific research. In: VentureBeat. 8. Februar 2023, abgerufen am 10. März 2023.
  7. Roger Montti: Google's Chain of Thought Prompting Can Boost Today's Best Algorithms. In: Search Engine Journal. 13. Mai 2022, abgerufen am 10. März 2023 (englisch).
  8. Tiernan Ray: Amazon's Alexa scientists demonstrate bigger AI isn't always better. In: ZDNET. Abgerufen am 10. März 2023 (englisch).
  9. Yi Liu, Gelei Deng, Yuekang Li, Kailong Wang, Tianwei Zhang, Yepang Liu, Haoyu Wang, Yan Zheng, Yang Liu: Prompt Injection attack against LLM-integrated Applications. 2023, doi:10.48550/ARXIV.2306.05499, arxiv:2306.05499v1.
  10. Daniel Szöke: Prompt Injection: Marvin von Hagen trägt vor, wie er Bing Chat austrickste. In: heise online. 17. Juli 2023, abgerufen am 26. Juli 2023.
  11. Jim Clyde Monge: Dall-E2 VS Stable Diffusion: Same Prompt, Different Results. In: MLearning.ai. 25. August 2022, abgerufen am 31. August 2022 (englisch).
  12. Prompt Engineering für Einsteiger: So funktioniert's! | tolingo. Abgerufen am 23. August 2023.
  13. Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick: =[2304.02643] Segment Anything. 1. April 2023;.
  14. MidJourney Adds Image Inpainting—Game Changer or Catch-Up Play? decrypt.co, 23. August 2023, abgerufen am 23. August 2023.