Benutzer:Pacogo7/Wikitranslate

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Dies sind die slides für einen Beitrag zur WikiDACH 2015.

Dieser Beitrag wurde zunächst mal für die WikiDACH 2015 (mangels Interesse) abgesagt. Vielleicht später zu einem anderen Anlass....

'Wikitranslate, ein neues Schwesternprojekt?'

Zu den Bedingungen der Möglichkeiten für Maschinelle Übersetzung gehört ein Wiki.

Ich möchte hier einen noch nicht abgesprochenen Vorschlag für ein neues Wikischwesternprojekt präsentieren, in dem die Community Vorgaben erstellt, die bewirken, dass ein maschinelles Übersetzungsprogramm zwischen Sprachen funktioniert.

Maschinelle Übersetzung

Bisher ein Fiasko. Einen ganz guten ersten Eindruck liefert etwa Daniel Stein. Üblicherweise wird vor allem mit statistischen Methoden gearbeitet, allein um die gewaltigen Menge von Textmöglichkeiten in den Griff zu kriegen.

Ich möchte darstellen, dass ein Ansatz, der die Grammatik (im Vergleich zu statistischen Methoden) ignoriert, schief geht.


Beispiel Textübersetzung

Der folgende Text ist aus der erste Strophe von einem Song von Udo Lindenberg Das kann man ja auch mal so sehen:

  • "Zufällig war sie da, und da hast du sie genommen
  • sonst wär das garantiert mit 'ner anderen so gekommen" auf youtube

Google Übersetzung ins Englische ergab am 7.9.2015:

  • "By chance she was there, and because thou hast taken them
  • otherwise that would be guaranteed to 'ner other come so"

Die Rückübersetzung lieferte am selben Tag:

  • "Durch Zufall war sie da, und weil du sie getroffen hast
  • sonst das würde zu 'ner garantiert werden andere kommen, so"
Analyse

Nicht so prickelnd. Wir wissen dass die meisten Übersetzungen schlecht sind, das überrascht uns nicht mehr.

Was mich überrascht hat war,

  1. dass das zweite "da" in der ersten Zeile als Kausalkonjunktion (weil-because) interpretiert wurde, obwohl die Satzstellung ein konsekutiv-vorzeitig-temporales "da" (wie also, daraufhin, so dass) als einzige grammatische Lesart vorsieht.
  2. dass das zweite "sie" in der ersten Zeile als Mehrzahl ("thou hast taken them") interpretiert wurde.
  3. "garantiert" ist das Partizip Perfekt des Verbs garantieren, das hier adjektivisch (so wie "natürlich") gemeint ist, aber dann statt "gekommen" als zentrales Verb des Teilsatzes ("would be guaranteed") übersetzt wird.
Folgerungen

Meine These ist: Wenn ein Übersetzungsprogramm grammatische und linguistische Grundstrukturen ignoriert, dann scheitert es. Der Grund ist wohl, dass (nur) Statistik verwendet wird.

Ich denke, dass Maschinen es allein durch Sprachanalyse mit statistischen Mitteln nicht schaffen, die Grundlagen für eine ordentliche Übersetzung bereitzustellen. Noch weniger schaffen es einzelne Menschen mit einem semantisch orientierten Ansatz.

Von der Menge und der Qualität her ist aber ein Wiki dazu in der Lage, so meine These.

Dieser ganze Plan kommt mir etwas größenwahnsinnig vor. Ich denke allerdings, es ist auf anderem Wege nicht zu erreichen. (Kleiner Scherz: Es kann eigentlich nicht gehen, so wie man sich auch nicht vorstellen konnte, dass eine Community eine Enzyklopädie hinbekommt.) -

Mehrdeutigkeiten

[Bearbeiten | Quelltext bearbeiten]

Was sind Ambiguitäten

[Bearbeiten | Quelltext bearbeiten]

Artikel Mehrdeutigkeit Die größte Herausforderung beim Übersetzen.

Sematisch normierte Sprache?

[Bearbeiten | Quelltext bearbeiten]

Normalerweise will man Ambiguitäten in der Computerlinguistik vermeiden. Das wird auch in diesem Projekt angestrebt. Die Worte und Sätze sollen in ihrer Bedeutung eindeutig gemacht werden.

Semantik light

Bedeutungen semantisch zu normieren, ist ein hohes Ziel. Viele bestreiten, dass das geht. Hier wird nur eine Semantik light angestrebt: Das soll heißen, dass zumindest die Unterschiede bei einer Übersetzung in eine andere Sprache semantisch eindeutig gefixt werden:

Schatzkammer Mehrdeutigkeiten

[Bearbeiten | Quelltext bearbeiten]

Nun bleiben immer Mehrdeutigkeiten über, die nicht von Menschen eindeutig verstanden werden können. Diese will ich nicht vermeiden, sondern suche sie sogar. Sie sind - wenn sie auch für Menschen doppeldeutig bleiben - auch ein großer Schatz. Ich möchte deshalb eine extra "Schatzkammer" für nicht eliminierbare Ambiguitäten erstellen. Sie bilden ein wichtiges Element bei Pointen von Witzen.

Jeder Satz einer natürlichen Sprache kann entweder (für ein Computerprogramm) eindeutig gemacht werden 
oder ergibt sich als eine für Menschen nicht auflösbare Ambiguität.

Skizze des Vorgehens

[Bearbeiten | Quelltext bearbeiten]

Grob gesagt soll ein Wiki erstellt werden, im Grunde ein Wikionary++, das alle verschiedenen Nuancen von Worten festlegt.

Bestandteile sind:

  1. Das Wiki
  2. ein Hintergrundbaukasten, mit dem man Unterscheidungen machen kann und der ebenfalls von der Community editiert werden kann
  3. eine Schnittstelle zu Übersetzungsprogrammen bzw. ein Übersetzungsprogramm

Erster Schritt: Semantische Eindeutigkeit

[Bearbeiten | Quelltext bearbeiten]

In einem ersten Schritt nehmen wir uns einen beliebigen Satz der natürlichen Sprache und machen ihn mithilfe des Hintergrundbaukastens entweder semantisch eindeutig oder aber wir ordnen ihn der Mehrdeutigkeiten-Schatzkammer zu.

Zweiter Schritt: Normierung

[Bearbeiten | Quelltext bearbeiten]

Der zweite Schritt ist nun das richtig Wertvolle: Wir geben ganz genau an, an welchen Details eine Software die Disambiguierung erkennen und selbst vornehmen kann.

Vorgehensbeispiel

[Bearbeiten | Quelltext bearbeiten]

Die Aufgabe des Wikis besteht darin, mit Beispielsätzen die Hintergrunddaten zu verbessern, damit dann später ein Übersetzungsprogramm solche Sätze vernünftig übersetzt. Ich habe mir ein schwieriges Beispiel herausgesucht: Ich gehe einmal für das zweite "da" der Zeile aus dem Lied die beiden Schritte durch: "Zufällig war sie da, und da hast du sie genommen"

Erster Schritt: Semantische Normierung

[Bearbeiten | Quelltext bearbeiten]

Von der Grundstruktur soll das Wiki ähnlich aufgebaut sein, wie Wiktionary. Dort gibt es einen Eintrag für "da": nämlich da und hier: beim Digitalen Wörterbuch der deutschen Sprache. Der ParZu - The Zurich Dependency Parser for German weblink macht die Analyse des zweiten "da" maschinell als adverbial ("6 da ADV").

Das zweite "da" ist allerdings genau genommen als vorzeitige konsekutiv/temporale Gliedsatzkonjunktion gemeint.

Der erste Schritt besteht also darin, dass dieses "da" als konsekutive Gliedsatzkonjunktion von uns im Wörterbuch als Möglichkeit korrekt eingerichtet wird, semantisch kommt man diesem "da" wohl mit "also" am nächsten und würde am besten mit "so" ins Englische übersetzt.

Zweiter Schritt:

[Bearbeiten | Quelltext bearbeiten]

Woran erkennt man die hier relevante Bedeutung des "da"? Antwort hier: An der Satzstellung. Wäre die Bedeutung kausal, wäre die Satzstellung anders: "Zufällig war sie da, und da du sie genommen hast."

Nebensatzkonstruktion: SOP bedeutet, "da" ist kausal gemeint. Nebensatzkonstruktion: SPO bedeutet, "da" ist als Folge gemeint.

Dieser Unterschied wird im zweiten Schritt von uns ins Wiki eingetragen. Das kann der Computer erkennen und übersetzt dann das Wort richtig.

Metadiskussion des Vorgehens

[Bearbeiten | Quelltext bearbeiten]

Der beste Weg zwischen Massenstatistik und Einzelgrammatik

[Bearbeiten | Quelltext bearbeiten]

Zwar ist das Vorhaben ohne Hauptinteresse an statistischen Verfahren so ein Projekt zu machen sehr schwierig, aber es gibt keinen besseren Weg.

Wegen der linguistischen und der technischen Herausforderungen kann man überlegen, ob man statt eines breiten offenen Wikis ein schmales Projekt mit nur einer Handvoll ausgesuchten Leuten macht, so wie das etwa bei dem Linuxprojekt war.