European Advanced Multilingual Information System

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Das European Advanced Multilingual Information System, Akronym EURAMIS, wurde als Übersetzungsunterstützungssystem für die Generaldirektion Übersetzung der Europäischen Kommission entwickelt. Die Softwareentwicklung begann im Jahr 1995, das System wird aber weiterhin angepasst und erweitert.

Einführung[Bearbeiten | Quelltext bearbeiten]

Die Generaldirektion Übersetzung der Europäischen Kommission (DGT) musste zu Beginn der Entwicklung von EURAMIS hauptsächlich in die 11 damaligen Amtssprachen übersetzen. Mit den Erweiterungen der Europäischen Union müssen nun insgesamt 24 Amtssprachen und wichtige Sprachen von Handelspartnern (Russisch, Arabisch, Chinesisch und Türkisch) unterstützt werden.

EURAMIS zielt darauf ab, den Übersetzern möglichst viele für die Übersetzung relevante (oder nützliche) Daten in einer Art One-Stop-Shop zur Verfügung zu stellen, damit diese Daten so weit wie möglich wiederverwendet werden können. Dies dient vor allem dazu, die Qualität und Kohärenz der Übersetzungen zu erhöhen, aber auch den Übersetzungsprozess zu optimieren. Dies ist bei der Menge der vorhandenen Daten und der Anzahl der benötigten Sprachenpaare mit den kommerziellen Systemen bis heute nur beschränkt möglich.

EURAMIS wird innerhalb der DGT als Hilfsmittel für die Übersetzung der überwiegenden Mehrheit der Dokumente benutzt. Fast alle Übersetzungsdienste der anderen europäischen Institutionen nutzen EURAMIS vor allem im Zusammenhang mit dem Gesetzgebungsverfahren (Europäisches Parlament, Rat der Europäischen Union, Gerichtshof der Europäischen Gemeinschaften, Europäischer Rechnungshof, Europäischer Wirtschafts- und Sozialausschuss, Ausschuss der Regionen); außerdem wird EURAMIS vom Übersetzungszentrum für die Einrichtungen der Europäischen Union genutzt.

Systemarchitektur[Bearbeiten | Quelltext bearbeiten]

EURAMIS war eines der ersten Übersetzungsunterstützungssysteme, die konsequent als Client-Server-Architektur umgesetzt wurden. Nachdem die Architektur ursprünglich zweischichtig war, ist sie inzwischen dreischichtig, d. h., sie hat eine eigene Datenschicht.

Wegen des hohen Bedarfs an Ressourcen bei der Verarbeitung sprachlicher Massendaten werden die meisten Dienste und Funktionen nur in Stapelverarbeitung angeboten: die zu behandelnden Daten werden dem System übergeben, das nach einiger Zeit die angeforderten Ergebnisse zurückschickt. Wo dies sinnvoll und möglich ist, werden vereinzelt auch Online-Dienste angeboten.

EURAMIS war von Anfang multilingual ausgerichtet, es ist also nicht nur sprachenpaarbezogen, sondern es nutzt eine sprachen-übergreifende Datenstruktur, um zwischen allen Amtssprachen der Europäischen Union zu übersetzen. Da die verschiedenen Amtssprachen eine Reihe von spezifischen Sonderzeichen haben, lag es auf der Hand, Unicode durchgehend zur Zeichendarstellung zu verwenden. Auch damit war das System ein Vorreiter in diesem Bereich.

Datenschicht[Bearbeiten | Quelltext bearbeiten]

Der zentrale Übersetzungsspeicher ist das Kernstück von EURAMIS. Er enthält fast 1,2 Milliarden Sätze in allen Amtssprachen. Da für jedes Dokument immer alle Sätze gespeichert werden, handelt es sich um etwa halb so viele Typen wie Tokens, d. h., die Zahl der verschiedenen Sätze ist etwa halb so groß wie die Gesamtzahl der Sätze.

Die Verwaltung der multilingualen Daten in einer relationalen Datenbank ermöglicht Funktionalitäten, die in anderen Übersetzungsspeichern nicht verwirklicht sind. Wurde etwa ein Dokument in mehrere Sprachen übersetzt (z. B. aus dem Englischen ins Französische und Deutsche), so werden die Daten – ohne Duplizierung – auch bei der Suche in der umgekehrten Übersetzungsrichtung berücksichtigt, und sogar bei der Suche zwischen den ursprünglichen Zielsprachen (hier zwischen Deutsch und Französisch). Dies ist besonders deshalb von Vorteil, weil sich die Ausgangssprache eines Dokuments von Fassung zu Fassung ändern kann.

Weiterhin besteht z. B. ein virtuelles Dokument aus der Gesamtheit der Sätze (einer Sprache), die die gleiche Meta-Information haben, ohne dass dafür eine physische Unterteilung notwendig wäre. Der Übersetzungsspeicher kann in seiner Gesamtheit, aber auch in seinen virtuellen Unterstrukturen angesprochen werden. Dies wird z. B. dazu genutzt, Einträgen aus verbindlichen Dokumenten Vorrang zu geben.

Logikschicht[Bearbeiten | Quelltext bearbeiten]

Anwendungs-Server[Bearbeiten | Quelltext bearbeiten]

Die wichtigsten Anwendungen innerhalb von EURAMIS sind

  • die Suche und die Speicherung von Daten im zentralen Übersetzungsspeicher: für das Auffinden ähnlicher, aber nicht notwendigerweise gleicher Textstücke (sog. Fuzzy-Retrieval) wurde eine eigene Indexierung mit eigenem Suchalgorithmus entwickelt; dieser ist zwar bei der gegebenen Datenmenge ausreichend effizient, jedoch zu langsam für einen interaktiven Einsatz
  • Programme zum Datenmanagement des Übersetzungsspeichers: Herunterladen von Dokumenten, Dokument-bezogene Pflege der Meta-Informationen, automatische Kohärenzprüfung und gegebenenfalls Anpassung der Meta-Informationen bei der Speicherung neuer Einträge, Korrektur der sprachlichen Informationen
  • die Erstellung von Alignments auf Satzebene auf der Grundlage von Original und bereits vorhandene Übersetzung: der verwendete Algorithmus basiert auf heuristischen Methoden, z. B. Satzlänge oder Parallelität von Zahlen usw. und liefert deshalb nicht immer fehlerfreie Ergebnisse
  • eine Einbindung verschiedener multilingualer Textdatenbanken, (z. B. EUR-Lex), die es den Benutzern ermöglicht, Alignments von Dokumenten aus diesen Textdatenbanken anzufordern
  • Verfahren zur Erkennung von Dokumenten, die für die Übersetzung relevant sein können: u. a. automatische Auswertung von Verweisen in allen Amtssprachen und statistische Verfahren zur Erkennung von (partiellen) Vorgängerdokumenten
  • die Anbindung an das maschinelle Übersetzungssystem der Europäischen Kommission
  • ein Integrator, der einerseits die Abfolge der einzelnen Module steuert (z. B. Konvertierung proprietärer Formate – Satzsegmentierung – Suche im Übersetzungsspeicher – Konvertierung in das Ausgabeformat – Übergabe des Ergebnisses), der aber andererseits auch dazu genutzt wird, komplexe Dienste zu entwerfen und zu überwachen (z. B. Suche im Übersetzungsspeicher, Erkennung von Referenzdokumenten, Extraktion dieser Dokumente aus dem Übersetzungsspeicher bzw. Herunterladen von der entsprechenden Textdatenbank und Alignment der Dokumente)

Falls eine Weitergabe von Daten zwischen den einzelnen Modulen bzw. Anwendungen notwendig ist, erfolgt diese über eine SGML-basierte sog. Pivot-Datei, in der die aufgerufenen Komponenten ihre Ergebnisse hinzufügen. Am Ende des Prozesses werden die benötigten Informationen herausgefiltert und in das gewünschte Format konvertiert.

Webserver[Bearbeiten | Quelltext bearbeiten]

Der Zugriff von Client Seite erfolgt über einen Webbrowser. Einige Online-Anwendungen (z. B. Konkordanz) befinden sich auf dem Webserver und interagieren unmittelbar mit der Datenbank.

Windows-Server[Bearbeiten | Quelltext bearbeiten]

Einige Anwendungen werden auf einem zentralen Windows-Server (z. B. Konvertierung von proprietären Formaten nach RTF oder Vorbereitung von Dokumenten für das Alignment) durchgeführt.

Präsentationsschicht[Bearbeiten | Quelltext bearbeiten]

Die Webschnittstelle bietet Zugang zu etwa 40 Menüs, mit denen die Benutzer ihre Anfragen oder Aufträge formulieren können. Eine Mehrzahl dieser Menüs werden auch in Form von Webservices angeboten. Mit dieser Schnittstelle kann der Benutzer entweder interaktive Abfragen formulieren, oder aber Dokumente zur Stapelverarbeitung übergeben.

Die Übersetzer verwenden die von EURAMIS gelieferten Ergebnisse mit einer Desktop-Software als Frontend (zurzeit das kommerzielle Produkt SDL Trados Studio und die Open-Source Software OmegaT; Datenaustausch über TMX-Dateien), oder aber ausschließlich in einer HTML-Seite, in dem Informationen über die Trefferquote farbig darstellt und Meta-Informationen (Herkunft des gefundenen Satzes, z. B. Dokumentnummer, Auftraggeber) in Form von Kommentaren dargestellt sind. Die zuerst beschriebene Vorgehensweise wird im Allgemeinen bevorzugt, da durch die interaktive Nutzung eines Übersetzungsspeichers auch Wiederholungen oder Ähnlichkeiten innerhalb desselben Dokuments ausgenutzt werden können.

Ein Windows-basierter Editor erlaubt die Korrektur etwaiger Fehler in Alignments. Die Darstellung erfolgt in Tabellenform: der Benutzer kann das alignierte Dokument durchsehen und muss nur dort eingreifen, wo Fehler zu beheben sind. Der Alignment-Editor verfügt über eine Reihe von Hilfsfunktionen, z. B. Suchen und Ersetzen, Rechtschreibfehlererkennung und Bearbeitung der Meta-Informationen.

Automatisierung innerhalb des Workflows[Bearbeiten | Quelltext bearbeiten]

Innerhalb der DGT sind viele dieser Schritte automatisiert: für alle elektronisch eingehenden Übersetzungsaufträge wird eine Behandlung mit Standard-Parametern ausgelöst, die Ergebnisse werden innerhalb eines Workflow-Systems den Übersetzern bereitgestellt. Sofern sie mit Hilfe des Frontends angefertigt wurden, werden die Übersetzungen automatisch in den Übersetzungsspeicher eingestellt, ansonsten erfolgt meist ein Alignment durch eine Hilfskraft.

Eine ähnliche automatisierte Einbindung in den Arbeitsprozess findet derzeit bei den anderen teilnehmenden Institutionen unter Zuhilfenahme der Webservices statt.

Nutzung[Bearbeiten | Quelltext bearbeiten]

Während die Nutzung von EURAMIS sich innerhalb der Europäischen Kommission vor allem wegen der schon sehr weit getriebenen Automatisierung auf hohem Niveau stabilisiert hat, nimmt die Nutzung durch die anderen beteiligten Institutionen immer noch zu. Zurzeit werden jeweils mehrere Millionen Seiten pro Jahr im Übersetzungsspeicher gesucht bzw. aligniert. Weiterhin werden an jedem Arbeitstag mehr als 80 000 interaktive Abfragen mit der Konkordanz getätigt.

Literatur[Bearbeiten | Quelltext bearbeiten]