
Die Nutzung der maschinellen Übersetzung in der Europäischen Kommission
Date: Wednesday, September 19 @ 02:38:58 EDT Topic: German Articles
Vorstellung
[Slide] Name: Klaus Ahrend Studium: Diplom-Fachübersetzen, Universität Hildesheim Berufserfahrung: 1985-1991 Übersetzer, Dornier GmbH - Deutsche Aerospace (DASA) Seit 1991 Europäische Kommission Übersetzer Gruppe Umwelt, Forschung, Technik Teilzeit-Mitarbeit MÜ-Entwicklung _ DE (bis 1997) ab 4/1998 Externe Übersetzung Tätigkeitsbereiche: finanzielle Angelegenheiten, mehrsprachige "Tools" (Vorverarbeitung u.a.) redaktionelle Nachbearbeitung maschinell übersetzter Texte Information und allgemeine FL-Unterstützung
Einleitung
[Slide 2] Zunächst möchte ich Ihnen einen Überblick über die Geschichte der maschinellen Übersetzung (MÜ) in der Europäischen Kommission sowie deren Entwicklung durch unseren Übersetzungsdienst geben. Im Anschluss daran erfahren Sie etwas über die Nutzung der MÜ im Allgemeinen und ihren Einsatz als elektronisches Hilfsmittel für Übersetzer. Abschließend möchte ich Ihnen dann noch ein m. E. sehr interessantes Projekt zur redaktionellen Nachbearbeitung maschinell übersetzter Texte vorstellen und kurz versuchen, ein wenig in die Zukunft zu schauen.
Die Geschichte der maschinellen Übersetzung in der Europäischen Kommission
[Slides 3/4] Im Jahr 1976 erwarb die Kommission eingeschränkte Rechte an einem MÜ- System namens Systran (kurz für System Translation), das in den 50er-Jahren von Peter Toma, einem Amerikaner ungarischer Herkunft, in den USA entwickelt worden war. Das System diente - wie so viele Entwicklungen im Bereich der Informatik - zunächst im Wesentlichen militärischen Zwecken. Die Europäische Kommission interessierte sich für Systran, da es seinerzeit das einzige operationelle und vollautomatische MÜ-System für die von ihr am meisten benötigte Sprachkombination Englisch-Französisch war. Auf der Grundlage ermutigender Ergebnisse eines Pilotprojekts wurde 1977 eine Französisch-Englisch-Version des Systems entwickelt. Nur ein Jahr später folgte das Paar Englisch-Italienisch. Mittlerweile bietet das System EC-Systran insgesamt [Slide 5] 18 Sprachenpaare und steht jedem Beamten der EU-Institutionen über das Intranet zur Verfügung (5 Ausgangssprachen und 8 Zielsprachen).
MÜ-Nutzung in der Europäischen Kommission
Nachdem die Nutzung der maschinellen Übersetzung in den siebziger und achtziger Jahren vernachlässigbar gering war [Slides 6/7], kann seit Anfang der neunziger Jahre beinahe von einer "MÜ-Explosion" innerhalb der Europäischen Kommission gesprochen werden (exponentieller Anstieg). Mittlerweile wird Systran auch immer häufiger von den anderen Institutionen (vor allem dem Parlament) sowie von externen Nutzern (Universitäten, Forschungseinrichtungen, Ministerien und anderen Verwaltungsorganen in den Mitgliedstaaten u.ä.) in Anspruch genommen [Slide 8]. Gründe dafür sind im Wesentlichen die mittlerweile sehr hohe und immer noch wachsende Zuverlässigkeit und Geschwindigkeit der elektronischen Übermittlung von Dokumenten (sowohl per E-Mail als auch über das EU-Intranet), die Akzeptanz der maschinellen Übersetzung als "Tool", die ständig steigende Dokumentenproduktion innerhalb der Institutionen, eine breit angelegte "Werbekampagne" des Übersetzungsdienstes und die Tatsache, dass MÜ mittlerweile überaus einfach zu nutzen ist. Grundlage für diese einfache Nutzung wiederum ist unsere Web-Schnittstelle, die über das Intranet der EU-Organe jedem Beamten zur Verfügung steht. Darüber hinaus werden potentielle Nutzer auf einer der MÜ gewidmeten Infranet-Seite genau über alles informiert, was für den Einsatz der MÜ wichtig ist (welche Dokumente eignen sich und welche nicht, wie kann die Qualität gesteigert werden usw.). [Beschreibung - Slides 9/10] Zusammenfassend kann man sagen, dass die maschinelle Übersetzung seit einigen Jahren in den EU-Institutionen und auch im Übersetzungsdienst der Kommission selbst nicht nur "hoffähig" geworden ist, sondern immer mehr als nützliches bzw. - wenn man den großen Umfang betrachtet, der von den Kommissionsübersetzern selbst gar nicht bewältigt werden könnte - unerlässliches Hilfsmittel für die tägliche Arbeit angesehen wird. Prinzipien der Weiterentwicklung Bevor ich zu einigen Statistiken und allgemeinen Betrachtungen über die Nutzung der MÜ komme, möchte ich kurz darüber sprechen, nach welchen Überlegungen unser Dienst gerade die derzeit verfügbaren 18 Sprachenpaare entwickelt bzw. weiterentwickelt hat. In diesem Zusammenhang sind drei Hauptkriterien zu nennen: 1. die internen Bedürfnisse der Kommission. Da EN und FR die Haupt- Arbeitssprachen sind, waren sie natürlich auch unsere ersten beiden Ausgangsund Zielsprachen (anschließend IT und DE, danach ES). 2. die zu erwartende Übersetzungsqualität. In anderen Worten: Da man sich von verwandten Sprachen die höchste Qualität bei geringstem Entwicklungsaufwand erwartete, begann man mit der Entwicklung von Sprachenpaaren, bei denen beide Sprachen romanischen (FR - IT/ES) oder germanischen (EN-DE) Ursprungs sind. Zumindest bei den romanischen Sprachen - vor allem in den Kombinationen ESFR und FR-ES - hat sich diese Annahme auch als richtig erwiesen. 3. finanzielle Beschränkungen. Der Haushalt der Kommission - und schon gar nicht der des Übersetzungsdienstes - lässt es nicht zu, für alle derzeit 110 Amtssprachenpaare die Möglichkeit der maschinellen Übersetzung vorzusehen. So konnten die Sprachenpaare EN-EL und EL-FR nur entwickelt werden, weil sich die griechische Regierung an der Finanzierung beteiligt hat. Ähnliche Projekte sind mittlerweile auch mit Portugal und den Niederlanden angelaufen. Statistiken [Slide 11] Wie die Abbildung zeigt, ist die Zahl der von EC-Systran übersetzten Seiten ständig angestiegen (von 26 000 1991 über 171 000 1995 zu knapp 400 000 1998; 1999 waren es dann sogar über 600 000 Seiten, während im letzten Jahr ein kleiner Rückgang auf knapp 550 000 Seiten zu verzeichnen war). Während zunächst die Nutzer [Slide 12] vor allem in den Generaldirektionen zu finden waren, hat sich die Verteilung in den letzten Jahren deutlich gewandelt [Slide 13] und der Übersetzungsdienst ist zum Hauptanwender der maschinellen Übersetzung geworden (er lässt mehr übersetzen als alle anderen Dienststellen zusammen). Was die Sprachenpaare anbelangt [Slide 14], so ist das "Ur-Paar" EN-FR mit knapp 100 000 Seiten im Jahr 2000 immer noch Spitzenreiter, gefolgt von FR-EN mit etwas über 90 000 Seiten sowie FR-ES und EN-ES mit jeweils knapp 60 000 Seiten. Die Zahlen für die Kombinationen mit Deutsch als Ausgangs- oder Zielsprache zeigen, dass auch hier ein erheblicher Bedarf besteht (DE-EN >31 000; EN-DE >28 000; FRDE ca. 21 000; DE-FR knapp 14 000 Seiten). Vor allem die beiden Kombinationen zwischen DE und EN verzeichnen ein ganz erhebliches Wachstum; bei höherer Qualität wäre die Nutzung sicherlich noch weitaus umfangreicher. Bei den Ausgangssprachen [Slide 15] machen EN und FR zusammen 85 % der übersetzten Seiten aus (DE liegt an dritter Stelle mit 8 %), während bei den Zielsprachen [Slide 16] FR und EN mit jeweils 26 bzw. 25 % sowie ES (21 %) deutlich vor dem Rest liegen. Praktischer Einsatz Wie bereits mehrfach erwähnt, steht die EC-Systran jedem mit einem PC ausgestatteten EU-Bediensteten über elektronische Post, eine Web-Schnittstelle oder - aber das gilt nur für die Übersetzer - ein besonderes Interface mit dem Namen Euramis zur Verfügung. Die Euramis-Schnittstelle werde ich Ihnen gleich noch ein wenig näher vorstellen. - Qualität Die Qualität der einzelnen Sprachenpaare variiert, wie Sie es sich wahrscheinlich gut vorstellen können, erheblich. Dies hängt sowohl davon ab, wie viel Zeit auf die Entwicklung des jeweiligen Paares verwandt wurde, als auch von der lexikalischen und syntaktischen Verwandtschaft der betreffenden Sprachen (s.o.). Die besten Ergebnisse liefern die Kombinationen mit Englisch, Französisch und Spanisch. Die Übersetzung aus dem Deutschen und ins Deutsche lässt hingegen oft noch sehr zu wünschen übrig. - Verwendungszweck [Slide 17] Beim Verwendungszweck sind im Wesentlichen zwei Benutzergruppen zu unterscheiden: Bedienstete in den Generaldirektionen der Kommission und Übersetzer. Für die erste Gruppe dient Systran zunächst einmal für das ungefähre Erfassen des Inhalts von Texten, die in einer Sprache abgefasst sind, die dem Leser völlig unbekannt ist (Information Scanning). Auch in weniger gut entwickelten Sprachkombinationen kann das System zwar keine gute Übersetzung liefern, doch zum einen arbeitet es extrem schnell (2 000 Seiten/h) und zum anderen gibt es zumindest einen Einblick in den Inhalt des Dokuments, so dass man anschließend immer noch entscheiden kann, ob eine hochwertige Übersetzung des Textes oder bestimmter Teile nötig ist. Ebenso wird die maschinelle Übersetzung für interne Dokumente eingesetzt: zur schnellen Übersetzung letzter Änderungen oder Ergänzungen (in diesem Fall meist von Muttersprachlern der Zielsprache revidiert), wenn es für eine Humanübersetzung im Dienst zu spät ist, aber auch zur Übersetzung weniger wichtiger Dokumente wie Sitzungsprotokolle, Arbeitsunterlagen u.ä. Ebenso oft wird die maschinelle Übersetzung als Redaktionshilfe benutzt, d.h. jemand, der einen Text in einer anderen als seiner Muttersprache verfassen muss, schreibt seinen Entwurf in seiner Muttersprache und lässt ihn anschließend übersetzen. Dies kommt in der Kommission sehr häufig vor. Zuletzt sei noch die Terminologiesuche genannt. Dies bedeutet, dass ein Text von Systran übersetzt wird, um bestimmte Fachtermini (z.B. aus "Eurospeak" oder einem anderen, vielleicht EU-spezifischen Bereich) in der Zielsprache vorliegen zu haben. Diese Art der Nutzung erfolgt meist zur Vorbereitung von Verhandlungen, die in einer Fremdsprache geführt werden müssen. - Übersetzungstool [Slide 18] Aber auch im Übersetzungsdienst wird die maschinelle Übersetzung als "Tool" für die Übersetzung eingesetzt. Einsatzbereiche sind natürlich in erster Linie die Sprachkombinationen, für die das MÜ-System eine ordentliche Qualität liefert, sowie bestimmte Textsorten (z.B. Sitzungsberichte, Anfragen, Redevorlagen mit vielen Stichwörtern oder Texte mit vielen Verweisen auf Rechtsdokumente). Gerade im letztgenannten Bereich wird die maschinelle Übersetzung in Verbindung mit anderen elektronischen Hilfsmitteln (z.B. Celex, die EU-Datenbank von Rechtstexten, Urteilen des Europäischen Gerichtshofs u.ä., SdTVista usw.) [Slide 19] eingesetzt und ist somit Teil eines "Gesamtpakets" zur Übersetzungsunterstützung. In diesem Zusammenhang ist vielleicht noch ein weiterer Aspekt interessant: Im Jahr 2000 hat der Übersetzungsdienst der Kommission weitaus mehr Dokumente, jedoch deutlich weniger Seiten von Systran (durchschnittliche Textlänge: 17,4 Seiten im Jahr 1999 gegenüber nur noch 9,2 Seiten 2000) übersetzen lassen. Gründe dafür sind zum einen der Versuch unseres Dienstes, die Nachfrage - und somit die Autoren in den anderen Generaldirektionen - besser "in den Griff zu bekommen" , und zum anderen die Tatsache, dass MÜ und PER besser für relativ kurze Texte geeignet sind, da die Nachbearbeitung bei relativ niedriger Qualität doch sehr ermüdend sein kann. Längere Dokumente sind dagegen eher repetitiv und daher besser mit TWB zu bearbeiten. Euramis-Schnittstelle Der Abruf einer "Vorübersetzung" mit Suche im Übersetzungsspeicher, in der Terminologie- oder der Dokumentationsdatenbank und der automatischen Übersetzung noch nicht vorhandener Textteile erfolgt für die Übersetzer mit Hilfe der Schnittstelle Euramis. [Beschreibung - Slides 20-23] Noch ein kurzes Wort zur Qualität der maschinellen Übersetzung. Obwohl Übersetzer MÜ-Qualität häufig als lächerlich gering oder gar einen Widerspruch in sich selbst betrachten, hat eine umfangreiche Studie unseres MÜ-Teams in Brüssel (die sogenannte Durchführbarkeitsstudie im Jahr 1996) sehr interessante Ergebnisse geliefert: Die große Mehrheit der MÜ-Nutzer - meist Verwaltungsbeamte in den Generaldirektionen der Kommission, aber auch etliche Übersetzer - schätzt die Qualität der Rohübersetzungen des Systems und hält es im Allgemeinen für überaus hilfreich (enormer Zeitgewinn, siehe Verwendungszweck). Durch diese positiven Ergebnisse der Durchführbarkeitsstudie war auch die Aufrechterhaltung, Wartung und - in beschränktem Maße - die Weiterentwicklung des Systems durch den Übersetzungsdienst erst einmal gesichert.
PER - redaktionelle Nachbearbeitung
Bevor ich zum Schluss komme, möchte ich Ihnen noch kurz ein Projekt vorstellen, das seit Mitte der 90er-Jahre existiert und in unserem Referat 'Externe Übersetzung' angesiedelt ist. Vor dem Hintergrund einer ständig wachsenden Nutzung der MÜ, kamen wir zu dem Schluss, dass wir den Nutzern eine höherwertige Dienstleistung erbringen könnten, wenn wir die Rohübersetzung durch schnelle redaktionelle Nachbearbeitung verbessern. Das Pilotprojekt ist mittlerweile unter dem Namen PER (von der französischen Benennung post-édition rapide) bekannt [Slide 24]. Die redaktionelle Nachbearbeitung wird nahezu ausschließlich von freiberuflichen Mitarbeitern durchgeführt. Ihr Hauptzweck ist eine schnelle Übersetzungsdienstleistung für besonders dringende, aber nicht zur Veröffentlichung oder andere "offizielle" Zwecke bestimmte Dokumente. [Slide 25] Wie Sie sehen können, ist die Nutzung seit 1994 fast ständig angestiegen (1994: 3 000; 1997: 8 986; 1999: 13 179 Seiten; eine Ausnahme macht das letzte Jahr, in dem wir mit budgetären Problemen zu kämpfen hatten und daher ab Oktober fast keine Nachbearbeitungen mehr in Auftrag geben konnten) - und dies, obwohl innerhalb der Kommission keine große "Werbung" für die PER gemacht wird und dieser spezielle Dienst in vielen Dienststellen noch völlig unbekannt ist. Dies zeigt uns deutlich, dass tatsächlich Bedarf für eine derartige Dienstleistung besteht. Unterschiede zwischen Übersetzen und redaktioneller Nachbearbeitung Ich denke, dass dies ein ziemlich interessanter Aspekt ist, den ich abschließend noch kurz beleuchten möchte. Übersetzen und redaktionelle Nachbearbeitung müssen, so denke ich, als zwei grundverschiedene Produkte angesehen werden. Und ebenso klar ist auch der Unterschied zwischen einer Humanübersetzung, die mit Hilfe einer maschinelen Übersetzung angefertigt wird, und einer Nachbearbeitung [Slide 26]. Wenn wir dies einmal aus der Sicht des Nutzers betrachten, so bekommt er im ersten Fall ein sowohl inhaltlich als auch sprachlich und stylistisch hochwertiges Endprodukt. Dass eine maschinelle Übersetzung die Grundlage bildete, sieht er nicht, und ich denke, es interessiert ihn auch nicht. Die Qualität der Rohübersetzung und somit der Wert des Hilfsmittels ist einzig und allein für den Übersetzer interessant. Im zweiten Fall - der redaktionellen Nachbearbeitung - erhält der Auftraggeber eine verständliche und grammatikalisch korrekte, jedoch stylistisch weniger ausgefeilte und daher oft nicht sehr elegante Übersetzung, dies jedoch innerhalb kürzester Zeit (bei einer Textlänge von bis zu 10 Seiten im Allgemeinen innerhalb von 48 Stunden). Sie sehen sicher bereits, worauf ich hinaus will: Zentrale Aspekte der redaktionellen Nachbearbeitung sind inhaltliche Zuverlässigkeit und Zweckmäßigkeit. Die durchschnittlich recht hohe sprachliche Qualität der PER und die durchweg große Zufriedenheit unserer Auftraggeber scheinen darauf hinzudeuten, dass hier ein noch deutlich größeres Nutzungspotential für die maschinelle Übersetzung liegt. Wichtig ist in jedem Fall das Feedback der Nutzer, das dem Entwicklungsteam in starkem Maße zur Weiterentwicklung des jeweiligen Sprachenpaars und somit zur Verbesserung der Übersetzungsqualität dient (außerdem besteht die Möglichkeit, sogenannte User Dictionaries zu bilden).
Ausblick
[Slide 27] Betrachtet man die Nutzungsstatistiken der letzten Jahre, so kann man wohl davon ausgehen, dass der Einsatz der maschinellen Übersetzung in den nächsten Jahren noch weiter steigen wird. Dies gilt in erster Linie natürlich für die Generaldirektionen und die anderen Institutionen, aber in gewissem Maße, so meine ich, auch für den Übersetzungsdienst. Angesichts der ständig wachsenden Zahl von Dokumenten, die von den Institutionen erstellt werden, sowie der in den nächsten Jahren zu erwartenden EU-Erweiterung, die bis zu zwölf neue Amtssprachen mit sich bringen kann, hat der Übersetzungsdienst bereits in erheblichem Maße in eine ganze Palette von Übersetzungstools investiert. Zusammen mit Terminologie- und Dokumentationsdatenbanken sowie Übersetzungsspeichern und eventuell auch in Verbindung mit kontrollierter Sprache für bestimmte Textsorten kann vielleicht auch die maschinelle Übersetzung dazu beitragen, das enorm hohe Übersetzungsvolumen in den Griff zu bekommen. Vor dem Hintergrund der aktuellen Budgetbeschränkungen dürfte für die Entwicklung neuer, aber vielleicht auch für die Weiterentwicklung bereits bestehender Sprachenpaare mehr und mehr eine Fremdfinanzierung - in erster Linie durch die Mitgliedstaaten - erforderlich sein. Vielen Dank für Ihre Aufmerksamkeit.
Klaus Ahrend Europäische Kommission Übersetzungsdienst
|
|