Benutzer:Lemmi04/Computerlexikographie

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Die Computerlexikographie ist ein Teilbereich der Computerlinguistik. Der Begriff Computerlinguistik im engeren Sinn bezeichnet wissenschaftliche Untersuchungen zur Erstellung und zur Nutzung lexikalischer Ressourcen im Zusammenhang mit sprachtechnologischen Anwendungen. Im weiteren Sinn umfasst der Begriff auch sprachtechnologische Entwicklungen und Werkzeuge zur Unterstützung traditioneller lexikographischer Prozesse, die zu elektronischen oder gedruckten Wörterbüchern für menschliche Benutzer führen. Die Computerlexikographie ist ein junger Zweig der Computerlinguistik und in Deutschland noch nicht akademisch verankert. Es gibt zwar ein Lehrbuch zur Computerlexikographie und einzelne Lehrveranstaltungen zu diesem Thema, aber keinen diesem Thema gewidmeten Lehrstuhl und keine einschlägige Konferenz.

Benachbarte Disziplinen[Bearbeiten | Quelltext bearbeiten]

Die Computerlexikographie ist keine eigene akademische Disziplin, aber ein reges Forschungsfeld, das mit zahlreichen thematisch verwandten Disziplinen vernetzt ist:

Lexikographie und Metalexikographie[Bearbeiten | Quelltext bearbeiten]

Korpuslinguistik[Bearbeiten | Quelltext bearbeiten]

Computerlinguistik und Sprachtechnologie[Bearbeiten | Quelltext bearbeiten]

Künstliche Intelligenz[Bearbeiten | Quelltext bearbeiten]

Geschichte der Computerlexikographie[Bearbeiten | Quelltext bearbeiten]

Die Anfänge der Computerlexikographie können bis in die frühen achtziger Jahre zurückverfolgt werden. Damals setzte sich die Erkenntnis durch, dass sprachtechnologische Anwendungen wie die maschinelle Übersetzung nicht praxistauglich sind, wenn ihnen nicht breit angelegte lexikalische Ressource mit reichhaltigen Informationen zu den syntaktischen und semantischen Eigenschaften lexikalischer Einheiten zur Verfügung stehen. Die zu lösenden Fragen waren: wie können solche Informationen mit vertretbarem Aufwand beschafft oder erstellt werden? In welcher Form müssen diese Informationen vorliegen, damit sie von sprachtechnologischen Systemen verwendet werden können? Um diese Zeit stellten größere Wörterbuchverlage (in den angelsächsischen Ländern Longman, Webster) die Druckbänder einiger für den menschlichen Benutzer konzipierten Wörterbüchern zur Verfügung. Die Fülle der hierin vorhandenen Informationen führte zu zahlreichen Vorhaben, diese Informationen in einer für sprachtechnologische Anwendungen hinreichend formalisierten Form bereitzustellen. Das Stichwort dieser Epoche war 'machine readable dictionary'. Der anfänglichen Euphorie folgte bald Ernüchterung. Es stellte sich heraus, dass die in Wörterbüchern für den menschlichen Benutzer kodierten Angaben werden umfangreich genug noch präzise genug formuliert waren, um sie ohne zu großen Aufwand in lexikalische Datenbanken für sprachtechnologische Programme zu überführen. Im deutschsprachigen Raum kam es nur sehr sporadisch zur Umwandlung von Printwörterbüchern in lexikalische Datenbanken, da es keinen vergleichbaren Verlag gab, der bereit gewesen wäre, Wörterbuchdaten in größerem Umfang der Forschung zur Verfügung zu stellen [1].

In der Folge ging man zwei verschiedene Wege. Erstens wurden formal explizitere und damit für sprachtechnologische Systeme besser geeignete Modelle für lexikalische Datenbanken und lexikalische Wissensbanken entwickelt. Wichtig für diese Modelle war, dass die lexikalischen Daten effektiv und redundanzfrei gespeichert werden konnten. Darüberhinaus spielt die Konsistenz, als die Widerspruchsfreiheit der Daten, eine wichtige Rolle. Daten aus Wörterbüchern wurden zur Bevölkerung dieser Modelle herangezogen, insoweit sie das Kriterium der Konsistenz erfüllten. Ein Ergebnis dieser Bemühungen waren spezialisierte Mechanismen für die Repräsentation von lexikalischem Wissen wie DATR und PATR. In jüngster Zeit werden auch generellere Wissensrepräsentationssprachen wie OWL und RDF, die im Umfeld des 'Semantic Web' entstanden, für die formale Präsentation von lexikalischem Wissen verwendet.

Zweitens begann man, für sprachtechnologische Anwendungen geeignete lexikalische Ressourcen mit einer breiten Abdeckung manuell und unabhängig von Printwörterbüchern aufzubauen. Eine Vorreiterrolle spielte das an der Universität Princeton von George Miller und Christiane Fellbaum und ihrer Gruppe aufgebaute Wortnetz. Ein Wortnetz ist eine lexikalisch-semantische Ressource, die den Wortschatz einer Sprache erfasst und nach den Wortinhalten und den Beziehungen zwichen diesen Wortinhalten repräsentiert. Wortnetze gibt es mittlerweile für zahlreiche Sprachen, ihre Entwicklung und sprachtechnologische Nutzung werden von starken Communitys gestützt.

Eine ähnliche Entwicklung ist die halbautomatische oder manuelle Erstellung von Ontologien in großem Maßstab. Ontologien werden benötigt, um komplexen sprachtechnologischen Programmen das notwendige Weltwissen zu vermitteln. Ontologie-Entwicklung kann als eine Teildisziplin der Künstliche-Intelligenz-Forschung betrachtet werden. Eine Pioniertat war der Aufbau einer umfassenden Wissensbasis namens Cyc unter der Leitung von Douglas Lenat. Die Arbeiten hieran begannen 1984 und sind immer noch nicht abgeschlossen. Neuerdings bedient man sich allerdings eher der Online-Enzyklopädie Wikipedia, um aus diesen Texten Weltwissen zu extrahieren und in ontologische Strukturen zu überführen. Ob dies der geeignete Weg ist, um sprachtechnologische Anwendungen zu verbessern, dies ist allerdings nach wie vor eine offene Frage.


Literatur[Bearbeiten | Quelltext bearbeiten]

Robert Amsler: Lexical Knowledge Bases. In: Proceedings of the 10th international conference on Computational linguistics. Stanford/Calif. 1984, S. 458-459.

Ted Briscoe, Bran Boguraev: Computational lexicography for natural language processing. White Plains:Longman 1989

Roger Evans, Gerald Gazdar: DATR. A Language for Lexical Knowledge Representation. In: Computational Linguistics 22 (1996) 2, S. 167-216.

Heyn, Matthias: Wiederverwendung maschinenlesbarer Wörterbücher. Eine computergestützte metalexikographische Studie zur Wiederverwendung des Oxford Advanced Learner's Dictionary in NLP. : Tübingen: Niemeyer 1992 (Lexicographica Series Maior).

Matthias Heyn, Oliver Christ und Ulrich Heid: Computergestützte Metalexikographie. Erfahrungen bei der Ermittlung der Wiederverwendbarkeit eines Wörterbuchs für maschinelle Sprachverarbeitung. In: LDV-Forum 1.1992, S. 23-33 (http://www.jlcl.org/1992_Heft1/LDV-Forum1.1992.pdf)

Lothar Lemnitzer, Claudia Kunze: Computerlexikographie. Tübingen:Gunter Narr Verlag, 2007

Douglas Lenat and R. V. Guha: Building Large Knowledge-Based Systems: Representation and Inference in the Cyc Project. Addison-Wesley, 1990.

Lenders, Winfried: Semantische Relationen in Wörterbuch-Einträgen - Eine Computeranalyse des Duden-Universalwörterbuchs. In: Schaeder, Burkhard und Rieger, Burghard (Hrsg.): Lexikon und Lexikographie. Hildesheim, Zürich, New York: Olms, 1990, pp. 92-119.

Links[Bearbeiten | Quelltext bearbeiten]

http://www.informatics.sussex.ac.uk/research/groups/nlp/datr/datrnode50.html

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Eine der wenigen Arbeiten, der deutschsprachige Wörterbuchdaten zugrunde liegen, ist Lenders 1990.