Linguistische Suche

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Linguistische Suche ist ein Verfahren, das bei Suchmaschinen zum Einsatz kommt und bedeutet, dass die Suchanfrage durch linguistische Verfahren bearbeitet wird. Hierzu werden aus der ursprünglichen Anfrage weitere Wortvarianten abgeleitet.

Verfahren[Bearbeiten | Quelltext bearbeiten]

Die eingesetzten linguistischen Verfahren sind: Lemmatisierung, also das Erkennen von Grundformen, die Kompositazerlegung, die Generierung von Wortvarianten, das Erzeugen von Synonymen und die Wortableitungen.

Der Ansatz unterscheidet sich von den Stemming-Verfahren, da bei der linguistischen Suche mit tatsächlich existierenden Wortformen (und nicht mit Wortteilen oder -stämmen) gearbeitet wird. Dies ist besonders für das Deutsche aufgrund der starken Irregularität seiner Wortbildung sinnvoll.

Diese unterschiedlichen linguistischen Verfahren werden nacheinander angewendet, da sie voneinander abhängen. Als Erstes wird eine Lemmatisierung der einzelnen Begriffe durchgeführt, womit zu jedem Begriff dessen Grundform identifiziert wird (Häuser → Haus, Vögel → Vogel, gingen → gehen). Im Deutschen können in dieser Phase Komposita in ihre Bestandteile zerlegt werden (Autobahngebühr → Autobahn + Gebühr, Atomenergiedebatte → Atomenergie + Debatte). Der nächste Schritt besteht in der Generierung aller Wortvarianten aus dieser gefundenen Grundform (Haus → Häuser, Häusern, Hauses, Hause; gehen → gehe, gehst, geht, ging, gingst, gingen, gegangen etc.).

Mit den so gewonnenen zusätzlichen Varianten kann die ursprüngliche Suche angereichert werden, weshalb auch von "Expansion" gesprochen wird.

Die Linguistik stellt weitere Verfahren zur Verfügung: Das Erkennen von Synonymen (Haus → Gebäude, Dynastie etc.) oder Wortableitungen (Haus → häuslich, Häuslein etc.) liefert zusätzliche Varianten für die Suche.

Die Suchbegriffe aus den verschiedenen Quell- bzw. Herkunftssprachen können in verschiedene Zielsprachen übersetzt (Flugzeug → (engl.) airliner, airplane, plane, aircraft → (franz.) avion) und wie Synonyme in die Suche eingefügt werden. Damit kann eine mehrsprachige Suche durchgeführt werden, im Sinne eines cross lingual information retrieval, was bedeutet, dass die Suchanfrage in einer Sprache eine Suche in einer oder mehreren weiteren Sprachen auslöst.

Zielsetzung[Bearbeiten | Quelltext bearbeiten]

Im Gegensatz zur automatischen Übersetzung, wo eine korrekte Übersetzung eines Begriffs gefunden werden muss, ist das Ziel hier, möglichst viele Übersetzungsäquivalente zu bringen, wobei der Kontext in den gefundenen Resultaten implizit eine Differenzierung der Bedeutungen (Disambiguierung) vornimmt.

Eine wachsende Zahl von linguistischen Systemen wurde bisher entwickelt, mit zum Teil sehr variierenden Zielsetzungen. Die grundsätzlichen Unterschiede betreffen Größe der eingesetzten Wörterbücher (mehrere Millionen Einträge) und linguistischen Ressourcen, Ausstattung der Wörterbücher mit grammatischen Informationen (morphologisch, syntaktisch, semantisch) und Verfügbarkeit der Übersetzungswörterbücher hinsichtlich der Sprachpaare.

Systeme[Bearbeiten | Quelltext bearbeiten]

Während einsprachige Systeme relativ zahlreich sind (Beispiel: DWDS als umfangreiches Wörterbuchsystem, FAST als Such- u. Indexierungssystem mit linguistischer Komponente, AUTINDEX [1]), gibt es nur wenige mehrsprachige (cross-linguale) Systeme.

Genannt seien:

  • BASE, die den mehrsprachigen Thesaurus Eurovoc zur Übersetzung nutzt.
  • LEXIQUO [2] und PSYDOK [3] nutzen die 'linguistic engine' EXTRAKT [4][5] mit Übersetzungswörterbüchern und Eurovoc-Daten für Deutsch, Englisch, Französisch (sowie Italienisch und Spanisch).
  • Pertimm [6] ein franco-amerikanisches mehrsprachiges Indexierungs- und Retrievalsystem.

Referenzen[Bearbeiten | Quelltext bearbeiten]

  1. AUTINDEX Automatische-Indexierung-und-Klassifizierung
  2. Lexiquo-Portal
  3. Mehrsprachige Suche in PSYDOK
  4. 'linguistic engine' EXTRAKT
  5. Artikel über EXTRAKT in www.ifra.net
  6. Pertimm System