Textgenerierung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Bei der Textgenerierung (auch natürlichsprachliche Generierung; englisch Natural Language Generation, NLG) wird durch die Software eines Computers automatisch ein Text erstellt. Die Generierung von Texten ist als Teilbereich der Computerlinguistik eine besondere Form der Künstlichen Intelligenz.

Generierungsprozess[Bearbeiten]

Für den Generierungsprozess gibt es je nach verwendeter Methode und Blickwinkel unterschiedliche Beschreibungsmodelle und Fachausdrücke, ohne sich prinzipiell widersprechen zu müssen.

Nach E. Reiter[1] besteht die Architektur zur Generierung heute standardmäßig aus einem Textplaner, einem Satzplaner und einem Oberflächenrealisierer. Für das Verhältnis zwischen Textsegmenten bedient man sich der Theorie rhetorischer Strukturen, RST, um die Diskursrelationen[2] zu gestalten. Ein Text ist kohärent, wenn er durch einen Baum von rhetorischen Relationen und elementaren Texteinheiten dargestellt werden kann (RST: Mann, Thompson): Als Relationen zwischen Haupt- und Nebensätzen gelten folgende Bindeglieder: CAUSE, RESULT, ELABORATION, CONTRAST, SEQUENCE, LIST, CONCESSION und andere.

Nach M. Hess[3] benötigt die Generierung zwei Komponenten.

  • Die Strategische Komponente, was gesagt werden soll: Informationsauswahl, Inhaltswahl, Bereichsplanung. Diese Komponente verwendet in der Regel Such- und Planungsstrategien der Künstlichen Intelligenz.
  • Die Taktische Komponente, wie es gesagt werden soll: Die Planung der sprachlichen Form. Dabei wird oft eine auf den Generierungsaspekt zugeschnittene Grammatik verwendet.

Ulrich Gaudenz Müller entwickelte gemeinsam mit dem Germanisten und Computerlinguisten Raimund Drewek von 1981 bis 1999 ein System zur Textgenerierung, das SARA (Satz-Random-Generator) genannt wurde.

Textgenerierung aus Wissensbasen[Bearbeiten]

„Voraussetzung für jegliche Art der Generierung ist, daß die als Text zu generierende Information als formale, computerlinguistisch verarbeitbare Information vorliegt, wie z. B. Informationen aus Datenbanken, oder Wissensrepräsentationen.“[4]

Die Textgenerierung aus derartigen Wissensbasen gibt es in Varianten für verschiedene Aufgabenstellungen.

  • Schnittstelle zu Expertensystemen
  • Produktion technischer Dokumente in mehreren Sprachen aus einer Wissensbasis[5]
  • Automatische Generierung (von Wegbeschreibungen, Wetterberichten und Börsenberichten)[4][6]
  • Generierungskomponente von Dialogsystemen[4]

Anwendungen in der Alltagskultur[Bearbeiten]

Wissensbasierte Software zur natürlichsprachigen Textgenerierung kann im Dialog gegenüber einem menschlichen Nutzer in begrenztem Maße Intelligenz simulieren (siehe oben, Künstliche Intelligenz). In einfacher Ausführung wird unmittelbar auf eine Texteingabe des Nutzers, unter Anwendung von Regeln und einer relativ simplen Wissensbasis eine Frage oder eine Antwort ausgegeben. Das bekannteste historische Beispiel, besonders in seiner Ausführung als Psychotherapeut, ist das Programm ELIZA, ein Chatbot.[7]

Ein Teil der Kommunikation mit hochentwickelten Intelligenten virtuellen Agenten beruht auf diesem Prinzip, wobei die Qualität des Dialogs unter Anderem von der Verknüpfung des Agenten mit Wissensbasen abhängt. Der Dialog eines Menschen mit verschiedenen Schnittstellen kann erleichtert werden, wenn ein Agent Text generiert, der Fragen produktiv beantwortet:

  • Beim Abrufen eines Informationsangebots, unter Anderem als Präsentationsagent einer Webseite (auch „Online Moderator” genannt)
  • Bei einem sprachfähigen Programm zur Wahl eines Beraters (oft für telefonisches Vorsortieren von Kunden genutzt)
  • Bei Dialogen mit Figuren in Computerspielen

Textgenerierung als kreatives Verfahren[Bearbeiten]

Textgenerierung kann eine Komponente kreativer Verfahren in Kunst und Literatur sein[8]. Für längere Werke bieten komplett generierte Textkörper, ob sinnhaltig generiert oder erst durch die Nachbearbeitung mit Sinn versehen, keine literarische Qualität. Es stehen jedoch einige in der Kunst des vorigen Jahrhunderts und in der Zeitgenössischen Kunst bedeutende künstlerische Verfahren Digitaler Poesie in Beziehung zur Textgenerierung.

Verfahren und Anwendungen in Bildender Kunst und Literatur[Bearbeiten]

  • Eingriffe in die generierende Software oder die Wissensbasis (künstlerische und literarische Experimente). Beispiel (nach Reinhard Döhl): Max Bense und seine Stuttgarter Gruppe benutzten 1959 eine Zuse Z22 um "mit Hilfe eines eingegebenen Lexikons und einer Anzahl von syntaktischen Regeln Texte zu synthetisieren und auszugeben"[9].
  • Nachbearbeitung oder Einbau generierten Textes durch Autoren (Literatur).[10]
  • Dialog mit Publikum (beispielsweise in Kunstinstallationen. Beispiel: David Link, Poetry Machine[11]

Textgenerierung durch Phrasendreschmaschine[Bearbeiten]

Phrasendreschmaschinen oder Bullshit-Generatoren (engl. bullshit generators, auch buzzword generators) gab es vor der Umsetzung in Software als mechanische Geräte. Wahrscheinlich die erste als Software ausgeführte Phrasendreschmaschine war LoveLetters_1.0, 1952 programmiert von Christopher Strachey an der University of Manchester für den Ferranti Mark I.[12] Ähnliche Generatoren sind in vielen weiter entwickelten Ausführungen im WWW zu finden.

Solche Programme arbeiten nach einfachen Konzepten, die bei anspruchsvolleren Verfahren der Textgenerierung komplexer ausgestaltet angewandt werden: Begriffe oder Satzteile werden aus Listen entnommen, aneinandergereiht und grammatikalisch korrekt angepasst (grammatische Realisierung). Ein dafür oft angewendetes Verfahren ist die Generierung mit Markow-Ketten.[13] Es entsteht syntaktisch korrekter Text, der sinnhaltig wirken kann, tatsächlich aber Blödsinn (engl. bullshit) ist, weil Phrasendreschmaschinen nicht auf Wissen über die Bedeutung verwendeter Partikel zugreifen. So lässt sich scherzhaft beispielsweise leere Rhetorik von Fachliteratur persiflieren.

Geschichte[Bearbeiten]

Abgesehen von mechanischen Phrasendreschmaschinen als Vorläufern und abgesehen von frühesten Versuchen, Texte durch Software zu generieren, beginnt die erste Phase natürlichsprachiger Generierung mit Programmen, die zur Textgenerierung schematisch auf Wissen zugreifen, das bereits in Textform abgelegt ist. So funktionierte ab 1963 BASEBALL, ein Interface zu den Baseballdaten der amerikanischen Baseballiga und SAD SAM, ein Interface zur Eingabe von Verwandtschaftsbeziehungen, das bereits auf Fragen antwortete. Nach mehreren anderen Arbeiten in dieser Richtung erschien 1966 ELIZA, programmiert von Joseph Weizenbaum. In der zweiten Phase ist das Wissen in Fakten und Regeln kodiert: LUNAR, 1972, ist das Interface zur Datenbank über die Mondprobensammlung der Apollo 11 Mission. PARRY, 1975, simuliert einen Paranoiden in Gespräch mit einem Psychiater. ROBOT, 1977, ist das erste kommerzielles Frage-Antwort-System. VIE-LANG, 1982, von Ernst Buchberger, ist ein Dialogsystem in deutscher Sprache, das Sätze aus einem semantischen Netz generiert[14]. HAM-ANS, 1983, von Wolfgang Hoeppner, ist ein Dialogsystem in deutscher Sprache, das beispielsweise einen Hotelmanager simuliert.[15]

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

  • Ehud Reiter: Has a consensus NL generation architecture appeared, and is it psychologically plausible? in: McDonald, D. and Meteer, M. (Hrsg.) Proceedings of the 7th. International Workshop on Natural Language generation (INLGW ’94), 1994 S. 163–170
  • Helmut Horacek: Textgenerierung in: Kai-Uwe Carstensen, Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Heidelberg: Spektrum Akademischer Verlag, 3. Auflage, 2010, ISBN 978-3827420237 S. 436–465
  • John Bateman: Angewandte natürlichsprachliche Generierungs- und Auskunftsysteme in: Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. s. o. Heidelberg 2010 S. 633–641
  • Rico Schwank: Analyse von Konzepten und Methoden zur Generierung von natürlichsprachlichen Texten aus formalen Daten Diplomarbeit. Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik[16]

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatEhud Reiter: [www.aclweb.org/anthology/W/W94/W94-0319.pdf Has a consensus NL generation architecture appeared, and is it psychologically plausible? in: Proceedings of the 7th. International Workshop on Natural Language generation (INLGW ’94).] McDonald, D. and Meteer, M., 1994, S. 163-170, abgerufen am 26. März 2010 (PDF, englisch).
  2. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatProjekt KIT-MARKER. Technische Universität Berlin, 1997, S. 1,3, abgerufen am 13. März 2010.
  3. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatMichael Hess: Einführung in die Computerlinguistik (I). Universität Zürich, Institut für Computerlinguistik, 2005, S. 44,4 f, abgerufen am 26. März 2010 (PDF).
  4. a b c  Wiebke Ramm und Claudia Villiger: Wissenschaftliche Textproduktion und Fachdomäne. Sprachliche Realisierung wissenschaftlicher Inhalte in verschiedenen Fachdisziplinen und ihre computerlinguistische Modellierung. In: Knorr, Dagmar/ Jakobs, Eva-Maria (Hrsg.): Textproduktion in elektronischen Umgebungen. Textproduktion und Medien Bd. 2, Lang Verlag, Frankfurt/Main 1997, ISBN 3-631-30970-8, S. 214,2 (http://docs.google.com/viewer?a=v&q=cache:Z4T6TSND-wEJ:www.prowitec.rwth-aachen.de/p-publikationen/band-pdf/band2/band2_ramm_villiger.pdf+Wiebke+Ramm+und+Claudia+Villiger&hl=de&gl=de&sig=AHIEtbQcqS4fma8MCM-M3hTeek4QpcwtRQ, abgerufen am 15. März 2010).
  5. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatVorlage:Internetquelle/Wartung/Datum nicht im ISO-FormatSusanne Göpferich, Dr. phil., Dipl.-Übers.: Der Technische Redakteur als Global Player: Berufspraxis und Anforderungen an die Ausbildung der Zukunft. Fachzeitschrift Technische Dokumentation 2000/05, 19.Dezember 2003, S. 1,7, abgerufen am 14. März 2010: „Ein multilinguales Generierungssystem, das mit den entsprechenden textsortenspezifischen Vertextungsregeln ausgestattet ist, kann diese verschiedenen Textsorten zum selben Produkt jeweils aus einer einzigen Wissensbasis heraus generieren.“
  6. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatStats Monkey. Intelligent Information Laboratory - Northwestern University, 2009, abgerufen am 24. März 2010 (englisch).
  7. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatVorlage:Internetquelle/Wartung/Datum nicht im ISO-FormatJosef Karner: Mailüfterl, Al Chorezmi und Künstliche Intelligenz: Ein Gespräch mit dem Computerpionier Heinz Zemanek. Telepolis, 8.August 1999, S. 1, abgerufen am 20. März 2010 (Frage 20 ff): „Weizenbaum hat aber nicht Intelligenz oder gar Bewusstsein erschaffen, sondern gezeigt, mit welch einfachen Mitteln man einen Betrachter glauben machen kann, er hätte es mit Intelligenz zu tun.“
  8. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatRoberto Simanowski: Automatisches Schreiben. X C U L T, abgerufen am 15. März 2010 (Referat bei der Fachtagung Narrationen in der Medienkunst).
  9. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatReinhard Doehl: Der Kreis um Max Bense. Abgerufen am 16. März 2010 (Abteilung: Künstliche Poesie, Abschnitt 5).
  10. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatReinhard Doehl: Der Kreis um Max Bense. Abgerufen am 16. März 2010 (Abteilung: Künstliche Poesie, Abschnitt 6).
  11. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatMiriam Stürner: David Link, Poetry Machine (version 1.0), 2001-2002. ZKM, Zentrum für Kunst und Medientechnologie Karlsruhe, abgerufen am 15. März 2010.
  12. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatDavid Link: LoveLetters_1.0. MUC=Resurrection. A Memorial. Abgerufen am 15. März 2010.
  13. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatAndreas Stuhlmüller: Texten mit Markov. 14. Februar 2005, abgerufen am 24. März 2010.
  14. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatVorlage:Internetquelle/Wartung/Datum nicht im ISO-FormatVIE-GEN. NLG Systems Wiki, 17. November 2009, abgerufen am 15.März 2010 (englisch).
  15. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatJörg Roth:: Einführung in natürlichsprachliche Textgenerierung. 1989, abgerufen am 14.März 2010.
  16. Vorlage:Internetquelle/Wartung/Zugriffsdatum nicht im ISO-FormatRico Schwank: Analyse von Methoden zur Generierung natürlichsprachlicher Texte aus formalen Daten. Otto-von-Guericke-Universität Magdeburg, abgerufen am 13. März 2010.