Probleme der automatischen Sprachverarbeitung Posted on Monday, September 24 @ 07:09:44 EDT
Topic: German Articles
|
am Beispiel der Sprachpaare Französisch Û Deutsch und Englisch Û Deutsch Problems in natural language processing from a German prospective. Difficulties when processing natural language occur at three stages, ie during analysis of the source text, bi-lingual transfer and synthesis. Although dictionaries are still crucial, the solution had to be refined to include syntactic recognition. However, the more sophisticated the approach to syntax becomes, the more syntactic ambiguity comes into focus. Even if, the given state of the art, MT produces useful results for certain more advanced language pairs, for others, especially for those involving German, it still needs a real technological quantum leap in order to arrive at substantial quality enhancements. Amongst other considerations, NLP will have to take higher levels, such as context, semantics and pragmatics into account. eit den ersten Versuchen in den 40er Jahren, die sich auf eine Wortfür- Wort-Umsetzung beschränkten und im wesentlichen aus mechanisierten Wörterbüchern bestanden, wurde deutlich, daß bloße Substitution von Wörtern keine akzeptable Übersetzung liefern kann.
Deshalb erweiterte man den Ansatz auf die Erkennung von syntaktischen Strukturen und die Analyse größerer Satzeinheiten. Es wurden Regeln aufgestellt, die einen Satz aus der Quellsprache in einen entsprechenden Satz der Zielsprache übertragen sollten. Wenn Mit Beiträgen von MARCWEYRICH, KERSTINWIEGMAN und PETRA RICKE (SYSTRAN Luxembourg SA). alle diese grammatikalisch-syntaktischen Regeln programmiert wären, würde das Elektronengehirn den Rest tun, so glaubte man zumindest. Führt auch diese rein strukturell-syntaktische Vorgehensweise, die sich vorwiegend auf einen Aspekt der Sprache, nl ihre Oberflächenstruktur, beschränkt, teilweise zu recht befriedigenden Ergebnissen, so scheint man beim derzeitigen Entwicklungsstand an unüberwindliche Grenzen zu stoßen, da wichtige andere Aspekte natürlicher Sprache wie Kontext, Pragmatik und Semantik weitgehend unberücksichtigt bleiben müssen, wenn auch semantische Codes in gewissem Umfang zur Disambiguierung ambivalenter Strukturen eingesetzt werden. Im Folgenden sollen am Beispiel des Deutschen als Quell- und Zielsprache einige Schwierigkeiten, die bei der automatischen Sprachverarbeitung auftreten, herausgegriffen und näher erläutert bzw Lösungen aufgezeigt werden. Probleme ergeben sich hauptsächlich auf drei Ebenen, nl bei der Analyse des Ausgangstextes, beim Transfer und der Synthese.
A Französisch - Deutsch
1 Nominalgruppen
Nominalgruppen werden in der Analyse nicht eigens behandelt. Vielmehr gelten in der Synthese als Nominalgruppe Nomen, die mit der Präposition “de/du” verbunden sind, einschließlich ihrer modifizierenden Adjektive. Beispiel: Les programmes de recherce de la DG XIII Les procédures d’octroi d’aides financières et d’allocations familiales. Es ergeben sich vier Möglichkeiten zur Übersetzung der französischen Präposition de: 1 mit Bindestrich: les directives CECA _die EGKS-Richtlinien 2 als Apposition: un morceau de viande _ein Stück Fleisch 3 als Kompositum: un programme de recherche _ein Forschungsprogramm 4 mit Präposition: l’emploi d’engrais _der Gebrauch von Dünger oder: la recherche de solutions _die Suche nach Lösungen In nachstehenden Fällen sind semantische Merkmale von Nomen (3) entscheidend, ob ein Kompositum gebildet wird oder ob die einzelnen Elemente durch Genitiv verbunden werden: La politique de diversification de la production _ Die Politik der Diversifikation der Produktion La politique de diversification de la Communauté _ Die Diversifikationspolitik der Gemeinschaft. Bei Nominalgruppen, die durch ein Adjektiv erweitert sind, ist die richtige Zuordnung des Modifikators zu einem oder allen Nomen oft schwierig, wenn sich dies anhand der Adjektivendungen nicht eindeutig bestimmen läßt. In nachstehenden Beispielen wäre jeweils nur aus einem größeren Kontext festzustellen, ob sich das Adjektiv nur auf das unmittelbar vorausgehende Nomen oder die gesamte Nominalgruppe bezieht. services et systèmes multimedia les opérateurs et les citoyens européens la formation et la requalification professionnelle.
2 Präpositionen
Die korrekte Übersetzung von Präpositionen ist für das Verständnis eines Satzes wichtig. Da im Deutschen die meisten Präpositionen, je nach abhängigem Substantiv, Verb oder Adjektiv, unterschiedliche Übersetzungen erfordern und außerdem je nach ausgedrücktem Verhältnis einen anderen Kasus regieren, kommt ihnen sowohl in den Wörterbüchern als auch in den Programmen eine wichtige Rolle zu. Im folgenden Beispiel: Ils disent la vérité au président _ Sie sagen dem Präsidenten die Wahrheit wird die Präposition au nur durch einen Dativ wiedergegeben, während 4 Ils disent la vérité au seminaire _ Sie sagen auf dem Seminar die Wahrheit die deutsche Entsprechung auf verlangt. Im folgenden Satz führt eine fehlerhafte Analyse, dh die Bestimmung des falschen Bezugsworts (budget bezogen auf pour), (1) zur Fehlübersetzung der Nominalgruppe und mit richtigem Bezug zwischen projet und pour (2) zur korrekten Übersetzung und ohne Bezugs-wortbestimmung (3) zu falscher Stellung des Verbpräfixes an: Ils adoptent le projet de budget pour 1997 Sie nehmen den Plan des Haushalts für 1997 an (1) Sie nehmen den Haushaltsplan für 1997 an (2) Sie nehmen den Haushaltsplan an für 1997 (3).
3 Partizipialergänzungen
3.1 Partizip Perfekt Während die Struktur eines französischen Satzes, der durch ein Partizipialattribut erweitert ist, in anderen Zielsprachen wie dem Englischen oder Italienischen beibehalten werden kann, ist im Deutschen ein Relativsatz erforderlich, wobei das Partizip zum Prädikat des Relativsatzes und ein zu generierendes Pronomen zum Subjekt wird. Beispiel: Ces initiatives comprennent de nouveaux projets destinés à ouvrir la voie à un accroissement du commerce transfrontalier. Englisch: These initiatives include new projects intended to open the way to an increase in cross-border trade. Italienisch: Queste iniziative comprendono nuovi progetti destinati ad aprire la via ad un aumento del commercio transfrontaliero. Deutsch: Diese Initiativen umfassen neue Projekte, die den Weg für eine Zunahme des grenzüberschreitenden Handels ebnen sollen. 3.2 Partizip Präsens Bei der Behandlung des Partizip Präsens sind mehrere Fälle zu unterscheiden: 3.2.1 Wiedergabe durch zwei Hauptsätze: La croissance de l’économie espagnole se poursuit au rythme de 5% par an, ce taux figurant parmi les plus élevés de l’OCDE. Das Wachstum der spanischen Wirtschaft nimmt im Rhythmus von 5% pro Jahr zu, dieser Satz zählt zu den höchsten in der OECD. Hierbei wird das Partizip zum Prädikat und das modifizierte Nomen zum Subjekt des zweiten Hauptsatzes. 3.2.2 Bildung eines zweiten unterordnenden Hauptsatzes: La délégation belge s’exprime dans le même sens, précisant qu’il serait difficile d’harmoniser les taux. Die belgische Delegation drückt sich im selben Sinn aus, indem sie erklärt, daß es schwierig wäre, die Sätze zu harmonisieren. Ein vom Subjekt des ersten Hauptsatzes abegleitetes Pronomen fungiert hier als Subjekt des durch eine modale Konjunktion (indem) verbundenen zweiten Hauptsatzes. 3.2.3 Bildung eines zweiten nebenordnenden Hauptsatzes: Estimant qu’il est nécessaire de coordonner les travaux, le Conseil invite les Etats membres à participer aux délibérations. Der Rat glaubt, daß es notwendig ist, die Arbeiten zu koordinieren und (er) lädt die Mitgliedstaaten ein, an den Beratungen teilzunehmen. Auch hier wird ein zusätzlicher Hauptsatz eingeführt, wobei das gemeinsame Subjekt in den ersten Satz übernommen und beide durch und verbunden werden. Des besseren Verständnisses wegen sollte hier außerdem ein vom Subjekt abgeleitetes Pronomen als Subjekt des zweiten Satzes eingefügt werden. 3.2.4 Generierung eines Relativsatzes: Ce taux figurant parmi les plus élevés de l’OECD est nettement inférieur au taux de l’année précédente. Dieser Satz, der zu den höchsten in der OECD zählt, ist deutlich niedriger als jener des Vorjahres. Die Umstrukturierung einer Partizipialergänzung in eine finite Verbform wirft weitere Probleme bei Tempus und Wortstellung auf.
4 Wortstellung
Bei der deutschen Synthese geht es darum, aus den durch die Analyse gewonnenen Informationen einen korrekten Satz in der Zielsprache zu generieren. Zum einen führt eine falsche oder unvollständige Analyse zu fehlerhafter Wortstellung, und zwar insbesondere dann, wenn diese Fehler zu Beginn der Analyse auftreten und die nachfolgenden Schritte auf unzutreffenden Analyseergebnissen aufbauen. Zum anderen reichen die derzeitigen Syntheseprogramme oftmals nicht aus, komplexe Ausgangs-sätze in andere Strukturen der Zielsprache umzusetzen. Dies gilt ua für vielgliedrige Sätze mit mehreren Haupt- und Nebensätzen sowie für erweiterte Verbal- und Nominalphrasen umfassende Sätze, für die jeweils zuerst die Struktur in der Zielsprache festgelegt werden muß, dh es muß bestimmt werden, ob es sich um einen PSO-Satz (Prädikat- Subjekt-Objekt), einen SPO-Satz (Subjekt-Prädikat-Objekt) oder einen SOP-Satz (Subjekt-Objekt-Prädikat) handeln soll. So ist zB für die Stellung des Prädikats in einem SOP-Satz zuerst das Ende der Objekt- Phrase, bzw in einem SPO-Satz das Ende der Subjekt-Phrase zu ermitteln. Beispiel: Il dit qu’il évaluera le programme dans tous ses aspects afin de trouver une solution. Er sagt, daß er das Programm in all seinen Aspekten auswerten wird, um eine Lösung zu finden.
B Englisch - Deutsch
Obwohl das Englische mit dem Deutschen näher verwandt ist als das Französische, treten neben Problemen der Analyse (Lösung von Homographien, Erkennung von Haupt- und Nebensätzen, Aufzählungen sowie Subjekt- und Prädikatsbestimmung) auch bei der Synthese die oben beschriebenen Schwierigkeiten auf, insbesondere bei der Umsetzung nichtfinite Partizipialstrukturen und der Wortstellung. Darüberhinaus bestehen Probleme mit unterschiedlichen lexikalischen Strukturen. Deren Behandlung soll nachstehend am Beispiel einiger lexikalischer Routinen dargelegt werden. Lexikalische Routinen sind im Vergleich zu den Analyse- und Syntheseprogrammen relativ kleine Programme. Sie sind Bestandteil des Transfers, der zweisprachigen Phase des maschinellen Übersetzungs-prozesses, und regeln die Übersetzung einzelner Wörter oder Wortkategorien, die durch gemeinsame syntaktische oder semantische Merkmale gekennzeichnet sind, bzw die Umsetzung ganzer Strukturen.
1 Lexikalische Routinen
1.1 ‘any’- Routine Die Übersetzung des englischen Adjektivpronomens any ist nicht durch einen simplen Wörterbucheintrag zuzuordnen, sondern es sind unterschiedliche syntaktische Strukturen zu berücksichtigen. Beispiel: Are there any deadlines? Gibt es irgendwelche Fristen? Any reference is marked by the system. Jeder Verweis wird vom System markiert. The measures did not have any effect. Die Maßnahmen hatten keine Auswirkung. 1.2 Datum-Routine Zur Wortkategorie, die aufgrund ihrer Komplexität in einer lexikalischen Routine behandelt wird, gehören ferner Datums- und Zeitangaben, da sich ihre Schreibweisen im Englischen und Deutschen nicht entsprechen. Beispiel: Monday, 26 January 1998 at 2.30 pm. Montag, den 26. Januar 1998 um 14.30 Uhr 1.3 ‘fail to’- Routine Eine syntaktische Struktur, auf die eine lexikalische Routine angewendet wird, ist die Infinitivkonstruktion fail to do sth, deren direkte Übersetzung (scheitern, etwas zu tun) keiner deutschen idiomatischen Wendung entspricht. Stattdessen bewirkt die Routine folgende Übersetzungen. Beispiel: It is obvious that the products fail to meet the norm. Es ist offensichtlich, daß die Produkte nicht der Norm entsprechen. The products do not fail to meet the norm. Die Produkte entsprechen der Norm. The products never fail to meet the norm. Die Produkte entsprechen immer der Norm The products always fail to meet the norm. Die Produkte entsprechen niemals der Norm. Um zu verdeutlichen, welche Probleme lexikalische bzw strukturelle Unterschiede zwischen zwei Sprachen für die maschinelle Verarbeitung aufwerfen, soll anhand dieses Beispiels kurz erläutert werden, was in der Routine im einzelnen abläuft: 1.3.1 Vorausgesetzt wird hier, daß es sich um eine finite Form des Verbs fail handelt, die einen Infinitiv regiert. 1.3.2 Der Infinitiv wird ‘stillgelegt’, dh besonders gekennzeichnet, so daß er nicht durch die Synthese läuft und keine Übersetzung erhält. 1.3.3 Die Wörterbuchübersetzung und spezifische Codes des Infinitivs (zB Kennzeichnung eines trennbaren Präfixes, der vom Verb regierte Kasus) werden auf die finite Verbform von fail übertragen. 1.3.4 Eine positive Satzformulierung wird negativ. Eine negative Satzformulierung wird positiv. Adverbien des Verbs werden gegebenenfalls durch ihre Antonyme ersetzt. 1.3.5 Die Objektinformationen des Infinitivs werden auf die Verbform von fail übertragen.
C Deutsch - Englisch / Französisch
Im Deutschen erweist sich ua die Vielfalt der erlaubten Stellungen der Personalform des Verbs, die die Satzschemata begründen2, für die Maschine als besonders schwierig. Außerordentliche Probleme bereitet ferner die Analyse von Adjektiv-, Verb- und Substantivkomposita, die zum Teil bisher nicht übersetzt werden können. Aus der Vielzahl der bei der Analyse deutscher Quelltexte auftretenden Schwierigkeiten sei hier nur die Segmentierung der Substantivkomposita herausgegriffen. Im Folgenden soll anhand einer Wortliste kurz dargestellt werden, in welchen Schritten die Analyse der Substantivkomposita abläuft. Als Wortliste dienen alle Lexeme, die im Rückläufigen deutschen Wörterbuch (RDW)3 auf -bildung enden. Neben Wortgefügen aus Adjektiv+Substantiv (Halb+bildung), Präposition+Substantiv (Ab+ bildung), Partikel + Substantiv (Ver+bildung) finden sich in dieser Liste überwiegend Komposita aus Verb+Substantiv (Lehn+bildung) und zum Teil sehr komplexe Wortbildungen aus zwei oder mehr Substantiven (Wärme+bildung), (Jahres+ring+bildung), (Regierungs+neu+bildung). Auf letztgenannten soll hier der Schwerpunkt liegen. Da sich neue Ausdrücke im Deutschen relativ einfach durch die Kombination bestehender Lexeme bilden lassen, die dann ihrerseits auch wieder erweiterbar sind, ist es weder möglich noch wünschenswert, sämtliche im Deutschen bestehenden oder potentiellen Ausdrücke in einem Wörterbuch aufzunehmen, das dadurch sehr schnell auf unhandliche Größe anwachsen würde. Deshalb wird versucht, vorrangig mit Algorithmen zur Zerlegung von Komposita zu arbeiten und nur die Simplizia als Bausteine in einem Wörterbuch zu verzeichnen, die keinem so raschen Wandel unterworfen sind wie komplexe Ad-hoc-Bildungen und - abgesehen von der Übernahme fremdsprachlicher Termini - in ihrem Inventar eingrenzbar sind. Im Wörterbuch zu erfassen sind außerdem hochfrequente Lexeme (Abbildung, Fortbildung), die kaum noch als Komposita empfunden werden, und lexikalisierte Komposita, für die es in den Zielsprachen S oben: 4 Wortstellung. GUSTAV MUTHMANN (1991) Rückläufiges deutsches Wörterbuch. Handbuch der Wortausgänge im Deutschen mit Beachtung der Wort- und Lautstruktur 2 unveränderte Auflage. Niemeyer (= Reihe Germanistische Linguistik 78), Tübingen. feststehende Ausdrücke gibt (Kristallbildung ® crystallisation oder Kabinettsumbildung ® cabinet reorganisation).
1 Analysevorgang
Während des Übersetzungsvorgangs werden mehrere Listen von ‘NOTFOUND’- Wörtern erstellt. Die ‘NFOP’-Liste (not-found output) enthält sämtliche Wörter, die SYSTRAN insofern unbekannt sind, als für sie kein Wörterbucheintrag besteht. Zu diesen unbekannten Wörtern zählen neben falsch geschriebenen Wörtern auch bislang nicht kodierte Lexeme (wie Verbildung oder Unbildung), Eigennamen, fremdsprachliche Ausdrücke und besonders Komposita, die nicht als komplexe Wortformen ins Wörterbuch aufgenommen worden sind. Anhand der erstellten NFOP-Liste werden dann die ersten Schritte zur Segmentierung unbekannter Wortformen unternommen: bei unbekannten Wortformen, die einen Bindestrich enthalten, wird dieser eliminiert und das so entstandene ‘neue’ Wort im Wörterbuch gesucht, die einzelnen Wortbestandteile werden ebenfalls im Wörterbuch gesucht (Ad-hoc-Bildung ® Adhocbildung, Ad-hoc, Ad, hoc) und gegebenenfalls ist die Analyse damit abgeschlossen. Auf dieser ersten Liste baut die mehrstufige ‘CPWLS-Folgeliste (composite words list) auf, in der weitere Dekompositionen anhand der im SYSTRAN-Wörterbuch enthaltenen Worteinträge vorgenommen werden. Die Suche nach bekannten Wörtern erfolgt hierbei von links nach rechts. Das System vergleicht die Zeichenfolge aus den ersten drei Buchstaben des NOT-FOUND mit den Einträgen im Wörterbuch, ‘merkt’ sich einen evtl Treffer und hängt dann jeweils ein weiteres Zeichen an diese Kette an. Als mögliche Wortanfänge kommen außer Substantiven (Analogie+bildung) auch Adjektive (Elementar+bildung) in Betracht. Die längste Kette ‘gewinnt’. Ist die linke Konstituente ein Homograph, erhält der Eintrag mit dem niedrigsten Wörterbuchcode (der sich nach der Wortart richtet) den Zuschlag. Anschließend wird der rechte Rest der Zeichenfolge abgeglichen: ist er ebenfalls im Wörterbuch enthalten, gilt das Kompositum als zerlegt, und den ermittelten Konstituenten wird die jeweilige zielsprachliche Übersetzung zugeordnet. Bei mehreren Bedeutungen in der Zielsprache wird die mit der höchsten Priorität gewählt. Findet das System keine Entsprechung zwischen potentiellem Wortanfang und 11 Wörterbucheintrag, gilt das Wort als nicht gefunden und wird nicht übersetzt. ZB: FER MENTBILDUNG FERM ENTBILDUNG FERME NTBILDUNG FERMEN TBILDUNG FERMENT BILDUNG FERMENTB ILDUNG FERMENTBIL DUNG FERMENTBILD UNG ‘Fermentbildung’ wird nicht übersetzt, da das Lexem Ferment nicht im Wörterbuch verzeichnet ist; demzufolge wird nicht erkannt, daß das Kompositum aus Ferment und Bildung besteht. Besteht der restliche rechte Teil des Wortes nicht als Wörterbucheintrag, wird eine weitere Dekomposition vorgenommen, bei der mögliche Fugenelemente abgestrichen werden. Betrachtet werden dabei die Fugenelemente n, en, er, s, es. ZB: LAW INENBILDUNG LAWI NENBILDUNG LAWIN ENBILDUNG LAWINE NBILDUNG LAWINEN BILDUNG LAWINENB ILDUNG LAWINENBI LDUNG LAWINENBIL DUNG LAWINENBILD UNG LAWINE NBI LDUNG LAWINE NBIL DUNG LAWINE NBILD UNG LAWINE N BILDUNG Jedes Wort wird solange segmentiert, bis der rechte Rest nicht mehr zerlegt werden kann. ZB: FRÜ HJAHRSGLATTEISBILDUNG FRÜH JAHRSGLATTEISBILDUNG FRÜHJ AHRSGLATTEISBILDUNG FRÜHJA HRSGLATTEISBILDUNG FRÜHJAH RSGLATTEISBILDUNG FRÜHJAHR SGL ATTEISBILDUNG FRÜHJAHR SGLA TTEISBILDUNG FRÜHJAHR SGLAT TEISBILDUNG 12 FRÜHJAHR SGLATT EISBILDUNG FRÜHJAHR SGLATTE ISBILDUNG FRÜHJAHR SGLATTEI SBILDUNG FRÜHJAHR SGLATTEIS BILDUNG FRÜHJAHR SGLATTEISB ILDUNG FRÜHJAHR SGLATTEISBI LDUNG FRÜHJAHR SGLATTEISBIL DUNG FRÜHJAHR SGLATTEISBILD UNG FRÜHJAHR S GLA TTEISBILDUNG FRÜHJAHR S GLATT EISBILDUNG FRÜHJAHR S GLATTE ISBILDUNG FRÜHJAHR S GLATTEI SBILDUNG FRÜHJAHR S GLATTEIS BILDUNG FRÜHJAHR S GLATTEISB ILDUNG FRÜHJAHR S GLATTEISBI LDUNG FRÜHJAHR S GLATTEISBIL DUNG FRÜHJAHR S GLATTEISBILD UNG Anschließend werden die einzelnen Konstituenten in den entsprechenden zielsprachlichen Ausdruck übersetzt.
2 Probleme
2.1 Zeichenlänge Die Vorgehensweise, zeichenweise von links nach rechts nach einem im Wörterbuch verzeichneten Wort zu suchen, bringt mehrere Schwierigkeiten mit sich: So ist es zwar meist angemessen, die minimale Wortlänge auf drei Zeichen festzulegen, denn der Bestand an Lexemen mit einer Länge von zwei Zeichen ist im Deutschen sehr gering, doch in Einzelfällen kann es zu Problemen kommen: die Eibildung wird auf diese Weise nicht als Kompositum erkannt, denn die erste Zeichenfolge, nach der gesucht wird, ist EIB. 2.2 Längste Zeichenkette Die Entscheidung, jeweils die längste Zeichenkette, die im Lexikon gefunden wird, als erste Komponente des Kompositums zu wählen, führt ziemlich häufig zu Fehlern: So wird Obstbaumschnitt in OBSTBAU + MSCHNITT segmentiert und der Analyse-Übersetzungs-Prozeß abgebrochen, weil die zweite Konstituente MSCHNITT nicht im 13 Wörterbuch zu finden ist, obwohl die drei Simplizia OBST, BAUM und SCHNITT im Wörterbuch enthalten sind. 2.3 Komplexe Komposita Das Problem, daß Zeichenfolgen über die korrekten Wortgrenzen hinaus als Wort interpretiert werden, tritt vielfach auch in komplexen Komposita auf. Durch die Strategie, Zeichenfolgen stets nur von links nach rechts nach Wörtern abzusuchen, kann das System komplexe Komposita nur dann korrekt segmentieren, wenn diese die Struktur x+(y+z) haben. Frühjahrsglatteisbildung wird demzufolge richtig segmentiert in FRÜHJAHR+S+(GLATTEIS+BILDUNG). Während (x+y)+z-Strukturen allenfalls dann aufspürbar sind, wenn das Kompositum, das die linke Konstituente bildet, im Wörterbuch kodiert ist. Edelgasbildung wird korrekt segmentiert in (EDELGAS)+BILDUNG, weil EDELGAS im Wörterbuch gefunden wird. Ist das Kompositum nicht kodiert, werden im günstigsten Fall alle Einzelbestandteile gefunden und übersetzt: ROSE+N+KNOSPE+ N+BILDUNG. In weniger günstigen Fällen kann es passieren, daß ein Eintrag für das vermeintliche y+z-Kompositum besteht, der dann der Struktur quasi übergestülpt wird: Jahresringbildung wird segmentiert in JAHR+ES+(RINGBILDUNG) ® annual syndication, da das Kompositum Jahresring nicht im Wörterbuch steht, wohl aber Ringbildung. Hieran läßt sich ganz gut ermessen, wie sehr es manchmal abzuwägen gilt, ob die Vor- oder die Nachteile bei der Aufnahme von Komposita ins Lexikon überwiegen: Diesen Komposita bleibt dann zwar die Analyseprozedur erspart, und sie werden korrekt in den zielsprachlichen Ausdruck umgesetzt, doch sie schaffen unter Umständen Probleme, falls sie als Zeichenkette in anderen komplexen Wortbildungen auftreten. 2.4 Homographien Bei Homographen führt desweiteren die Auswahl des Lexems über den Dictionarycode oftmals zu Fehlübersetzungen: So wird beispielsweise Lautbildung zwar korrekt segmentiert in LAUT+BILDUNG, doch für LAUT finden sich im Wörterbuch die Einträge: LAUT Adverb ® according to 14 LAUT Substantiv ® sound LAUT Adjektiv ® loud LAUT Verb ® to read was bei Anwendung des Prinzips des niedrigsten Dictionarycodes zu according to führt. Ähnliches geschieht bei Stimmbildung. Hier besteht der Eintrag STIMM für den Verbstamm zu stimmen, dem mood als Übersetzung der substantivierten Form Stimmung zugeordnet ist. Demzufolge übersetzt SYSTRAN Stimmbildung mit mood education. 2.5 Wegfall der Endung Anhand dieses Beispiels läßt sich ein weiteres Problemfeld bei der Kompositasegmentierung aufzeigen: Es ist nicht möglich, solche Komposita, bei denen die Endung der ersten Konstituente aus fugentechnischen Gründen wegfällt, mit der Grundform zusammenzubringen. STIMM kann nicht als gekürzte Form von Stimme gefunden werden. Ein weiteres Beispiel ist Gebirgsbildung. Zwar ist GEBIRGE im Wörterbuch enthalten, doch Gebirgsbildung wird wegen des fehlenden Endungs-e’s segmentiert in GEB (Stamm von geben)+IRGSBILDUNG. Da der rechte Teil des Kompositums nicht gefunden wird, ist das ganze Wort ‘not found’ und wird daher nicht übersetzt. 2.6 Fugenelemente Die Behandlung der Fugenelemente birgt weitere Probleme in sich: Die Entscheidung, potentielle Fugenelemente erst abzustreichen, wenn die rechte Konstituente nicht im Lexikon gefunden werden kann, führt relativ häufig dazu, daß Fugenelemente als Anfangsbuchstaben der zweiten Konstituente gedeutet werden. Bei der hier verwendeten Beispielliste trifft dies nicht zu, da es im Lexikon keine Einträge gibt, die mit nbi, enb, sbi oder esb beginnen. Doch wird beispielsweise Geschwindigkeitskontrollventil segmentiert in GESCHWINDIGKEIT+SKONT (Stamm von Skonten zu Skonto)+ROLL (Stamm von rollen)+VENTIL, was zur Übersetzung speed discount payment roll valve führt, oder Publikumsinteresse wird über PUBLIKUM+SINTER (Stamm von sintern)+ESSE zu public sinter chimney stalk. 2.7 Mehrdeutigkeit Das letzte große Problemfeld bei der Übersetzung von Komposita – die Auswahl des adäquaten zielsprachlichen Ausdrucks - betrifft die Übersetzung allgemein. Durch die Vorgehensweise, jeweils den Ausdruck mit der höchsten Priorität zu wählen, ohne semantische oder gar kontextuelle Gesichtspunkte zu beachten, kommt es sehr häufig zu sinnentstellten Übersetzungen. So wird in der hier vorgestellten Beispielliste die -bildung durchweg mit education übersetzt, obwohl viel häufiger formation gemeint ist. Übersetzungen wie segment education für Schuppenbildung oder column education für Spaltenbildung sind ebenso erheiternd wie unverständlich.
3 Lösungsansätze
Die auftretenden Probleme sind sowohl kodier- als auch programmiertechnischer Natur und nur mit erheblichem Aufwand zu behandeln. So wäre es bestimmt sinnvoll, bei der Kodierung angeben zu können, welche(s) potentielle(n) Fugenelement(e) das jeweilige Lexem erfordert oder ob seine Endung elidiert wird. Doch ist die Verwendung von Fugenelementen im Deutschen dermaßen komplex und unsystematisch, daß die sich gerade bei hochfrequenten Wörtern zwangsläufig ergebenden Fugenauswahllisten neue Probleme mit sich bringen. Ebenso wäre ein nachgeschalteter Algorithmus, der bei gefundenen linken Konstituenten entscheidet, ob ein Fugenelement folgt oder die folgende Zeichenkette zur rechten Konstituente gehört, fehleranfällig, würde die Analyse verlangsamen und wahrscheinlich nicht verbessern (vgl zB DUDEN-Regel ‘nach Endung -ling folgt das Fugenzeichen s’. Frühlingstau darf also nicht in FRÜHLING+STAU, sondern muß in FRÜHLING+S+TAU segmentiert werden. Jedoch darf Rieslingsekt nicht zu RIESLING+S+EKT zerlegt werden!) Ein erster erfolgversprechender Ansatz besteht darin, die Liste der potentiellen Kompositabestandteile zu überarbeiten. Dabei wären folgende Fragen zu klären: kann wirklich jeder Wortstamm in einem Kompositum auftreten (vgl SKONT)? Welche Kompositakonstruktionen treten in den verarbeiteten Kommissionstexten auf? Stehen die tatsächlich angetroffenen Wortbildungen vielleicht im Widerspruch zu scheinbar unumstößlichen Regeln? (Vgl zB die DUDEN-Regel, daß Komposita mit Typ als Bestimmungswort stets en als Fugenelement verlangen und die in den Kommissionstexten gefundenen Ausdrücke 16 Typbezeichnung, Typenge- nehmigung und Typangabe!) Inwieweit handelt es sich hierbei um Ausnahmen zur Regel, um Sprachökonomie bzw Sprachwandel oder um fehlerhaften Sprachgebrauch? Läßt sich der Segmentierungsalgorithmus vielleicht effektiv so erweitern, daß nicht nur von links nach rechts, sondern auch von rechts nach links gesucht werden kann? Wie verhalten sich hierbei Kosten und Nutzen?
Anhang 1 NFOP-Liste (Wörter, die nicht im Wörterbuch vorhanden sind) AD (BEG CAPS, HYPHEN WORD PART) AD-HOC-C$BILDUNG (BEG CAPS) ADHOCBILDUNG (BEG CAPS, HYPHEN DROPPED) AFTERBILDUNG (BEG CAPS) ANALOGIEBILDUNG (BEG CAPS) ARBEITERBILDUNG (BEG CAPS) ARTBILDUNG (BEG CAPS) BANDENBILDUNG (BEG CAPS) BEGRIFFSBILDUNG (BEG CAPS) BERUFSFORTBILDUNG (BEG CAPS) BEWUSSTSEINSBILDUNG (BEG CAPS) BLOCKBILDUNG (BEG CAPS) BLUTBILDUNG (BEG CAPS) CHARAKTERBILDUNG (BEG CAPS) CLIQUENBILDUNG (BEG CAPS) DELTABILDUNG (BEG CAPS) DUENENBILDUNG (BEG CAPS) DURCHSCHNITTSBILDUNG (BEG CAPS) EIBILDUNG (BEG CAPS) ELEMENTARBILDUNG (BEG CAPS) ELITEBILDUNG (BEG CAPS) EXERZIERAUSBILDUNG (BEG CAPS) FACHBILDUNG (BEG CAPS) FAHRAUSBILDUNG (BEG CAPS) FEHLBILDUNG (BEG CAPS) FERMENTBILDUNG (BEG CAPS) FORMALAUSBILDUNG (BEG CAPS) FRAKTIONSBILDUNG (BEG CAPS) FRUCHTBILDUNG (BEG CAPS) FUNKENBILDUNG (BEG CAPS) GAMETENBILDUNG (BEG CAPS) GASBILDUNG (BEG CAPS) GEBIRGSBILDUNG (BEG CAPS) GEFECHTSAUSBILDUNG (BEG CAPS) GEHOERBILDUNG (BEG CAPS) GEISTESBILDUNG (BEG CAPS) GELEGENHEITSBILDUNG (BEG CAPS) 17 GEMEINSCHAFTSBILDUNG (BEG CAPS) GESCHMACKSBILDUNG (BEG CAPS) GESCHWUERBILDUNG (BEG CAPS) GESCHWULSTBILDUNG (BEG CAPS) GESICHTSBILDUNG (BEG CAPS) GESTEINSBILDUNG (BEG CAPS) GLATTEISBILDUNG (BEG CAPS) GRANITBILDUNG (BEG CAPS) GYMNASIALBILDUNG (BEG CAPS) HALBBILDUNG (BEG CAPS) HARZBILDUNG (BEG CAPS) HEMMUNGSBILDUNG (BEG CAPS) HEMMUNGSMISSBILDUNG (BEG CAPS) HERZENSBILDUNG (BEG CAPS) HOC (HYPHEN WORD PART) HOCHSCHULBILDUNG (BEG CAPS) HUMUSBILDUNG (BEG CAPS) INTENSIVBILDUNG (BEG CAPS) ITERATIVBILDUNG (BEG CAPS) JAHRESRINGBILDUNG (BEG CAPS) JAHRRINGBILDUNG (BEG CAPS) KABINETTSBILDUNG (BEG CAPS) KABINETTSNEUBILDUNG (BEG CAPS) KABINETTSUMBILDUNG (BEG CAPS) KAMPFAUSBILDUNG (BEG CAPS) KAPITALBILDUNG (BEG CAPS) KARTELLBILDUNG (BEG CAPS) KASUSBILDUNG (BEG CAPS) KAUSATIVBILDUNG (BEG CAPS) KNOCHENBILDUNG (BEG CAPS) KNOSPENBILDUNG (BEG CAPS) KOERPERBILDUNG (BEG CAPS) KOLLEKTIVBILDUNG (BEG CAPS) KOMPLEXAUSBILDUNG (BEG CAPS) KRAMPFADERBILDUNG (BEG CAPS) LAUTBILDUNG (BEG CAPS) LAWINENBILDUNG (BEG CAPS) LEHNBILDUNG (BEG CAPS) LEHRERBILDUNG (BEG CAPS) LEHRERFORTBILDUNG (BEG CAPS) LEHRLINGSAUSBILDUNG (BEG CAPS) MERKMALBILDUNG (BEG CAPS) MERKMALSBILDUNG (BEG CAPS) MYTHENBILDUNG (BEG CAPS) OBERSCHULBILDUNG (BEG CAPS) OFFIZIERAUSBILDUNG (BEG CAPS) OFFIZIERSAUSBILDUNG (BEG CAPS) PAARBILDUNG (BEG CAPS) PARTIZIPIALBILDUNG (BEG CAPS) PASSIVBILDUNG (BEG CAPS) PERSOENLICHKEITSBILDUNG (BEG CAPS) PIGMENTBILDUNG (BEG CAPS) PLURALBILDUNG (BEG CAPS) 18 REGIERUNGSNEUBILDUNG (BEG CAPS) REIHENBILDUNG (BEG CAPS) REKRUTENAUSBILDUNG (BEG CAPS) RUECKGRATSVERBILDUNG (BEG CAPS) RUECKGRATVERBILDUNG (BEG CAPS) SCHAUMBILDUNG (BEG CAPS) SCHIESSAUSBILDUNG (BEG CAPS) SCHLICKBILDUNG (BEG CAPS) SCHUPPENBILDUNG (BEG CAPS) SCHWEISSBILDUNG (BEG CAPS) SINGULARBILDUNG (BEG CAPS) SPALTENBILDUNG (BEG CAPS) SPEZIALAUSBILDUNG (BEG CAPS) STAERKEBILDUNG (BEG CAPS) STELLENBILDUNG (BEG CAPS) STIMMBILDUNG (BEG CAPS) TEXTABBILDUNG (BEG CAPS) TRUSTBILDUNG (BEG CAPS) UNBILDUNG (BEG CAPS) UNIVERSALBILDUNG (BEG CAPS) UNIVERSITAETSAUSBILDUNG (BEG CAPS) UNTEROFFIZIERSAUSBILDUNG (BEG CAPS) VERBILDUNG (BEG CAPS) VOLKSSCHULBILDUNG (BEG CAPS) WAECHTENBILDUNG (BEG CAPS) WAERMEBILDUNG (BEG CAPS) WELLENBILDUNG (BEG CAPS) WOLKENBILDUNG (BEG CAPS) ZELLBILDUNG (BEG CAPS) ZELLENBILDUNG (BEG CAPS) ZUSAMMENBILDUNG (BEG CAPS) ZWITTERBILDUNG (BEG CAPS) ENBILDUNG ENSBILDUNG ESBILDUNG ESRINGBILDUNG GRATSVERBILDUNG GRATVERBILDUNG ILDUNG IRGSBILDUNG IZIPIALBILDUNG NBILDUNG SATIVBILDUNG SBILDUNG SFORTBILDUNG SNEUBILDUNG SSCHULBILDUNG SUMBILDUNG ATIVBILDUNG SBILDUNG SVERBILDUNG VERBILDUNG ILDUNG 19 VERBILDUNG ILDUNG TOT NF 193DIF 145 HEX
2 Segmentierte Komposita der NFOP-Liste
SYSTRAN II - - MDL/NMDL: MAIN DICTIONARY LOOKUP COMPOSITE WORDS 0 MNM0001 START PGM=NMDL AD-HOC- BILDUNG AFTER BILDUNG ANALOGIE BILDUNG ARBEITER BILDUNG ART BILDUNG BANDEN BILDUNG BEGRIFFS SBILDUNG BERUF SFORTBILDUNG BEWUSSTSEIN SBILDUNG BLOCK BILDUNG BLUT BILDUNG CHARAKTER BILDUNG CLIQUE NBILDUNG DELTA BILDUNG DUENE NBILDUNG DURCHSCHNITT SBILDUNG ELEMENTAR BILDUNG ELITE BILDUNG EXERZIER AUSBILDUNG FACH BILDUNG FAHR AUSBILDUNG FEHL BILDUNG FORMAL AUSBILDUNG FRAKTION SBILDUNG FRUCHT BILDUNG FUNKEN BILDUNG GAS BILDUNG GEB IRGSBILDUNG GEFECHT AUSBILDUNG GEHOER BILDUNG GEIST ESBILDUNG GELEGENHEIT SBILDUNG GEMEINSCHAFT SBILDUNG GESCHMACK SBILDUNG GESCHWUER BILDUNG GESCHWULST BILDUNG GESICHT SBILDUNG GESTEIN SBILDUNG GLATTEIS BILDUNG GRANIT BILDUNG HALB BILDUNG HARZ BILDUNG HEMM BILDUNG 20 HEMM MISSBILDUNG HERZ ENSBILDUNG HOCHSCHUL BILDUNG HUMUS BILDUNG INTENSIV BILDUNG ITERATIV BILDUNG JAHR ESRINGBILDUNG JAHR RINGBILDUNG KABINETT SBILDUNG KABINETT SNEUBILDUNG KABINETT SUMBILDUNG KAMPF AUSBILDUNG KAPITAL BILDUNG KARTELL BILDUNG KASUS BILDUNG KAU SATIVBILDUNG KNOCHEN BILDUNG KNOSPEN BILDUNG KOERPER BILDUNG KOLLEKTIV BILDUNG KOMPLEX AUSBILDUNG KRAMPFADER BILDUNG LAUT BILDUNG LAWINE NBILDUNG LEHN BILDUNG LEHRER BILDUNG LEHRER FORTBILDUNG LEHRLING AUSBILDUNG MERKMAL BILDUNG MERKMAL SBILDUNG MYTH ENBILDUNG OBER SCHULBILDUNG OFFIZIER AUSBILDUNG PAAR BILDUNG PASSIV BILDUNG PERSOENLICHKEIT SBILDUNG PIGMENT BILDUNG PLURAL BILDUNG REGIER NEUBILDUNG REIHEN BILDUNG RUECK GRATSVERBILDUNG RUECK GRATVERBILDUNG SCHAUM BILDUNG SCHIESS AUSBILDUNG SCHUPPEN BILDUNG SCHWEISS BILDUNG SINGULAR BILDUNG SPALTEN BILDUNG SPEZIAL AUSBILDUNG STAERKE BILDUNG STELLEN BILDUNG STIMM BILDUNG TEXT ABBILDUNG 21 UNIVERSAL BILDUNG UNIVERSITAETS AUSBILDUNG UNTEROFFIZIER AUSBILDUNG VERB ILDUNG VOLK SSCHULBILDUNG WAERME BILDUNG WELLEN BILDUNG WOLKE NBILDUNG ZELL BILDUNG ZELLE NBILDUNG ZUSAMMEN BILDUNG ZWITTER BILDUNG 0 MNM020I *** END OF PHASE 0; 110 COMPOSITE WORDS, 110 OCCURENCES E BILDUNG E SBILDUNG E BILDUNG E RINGBILDUNG GRAT SVERBILDUNG GRAT VERBILDUNG N BILDUNG S ATIVBILDUNG S BILDUNG S FORTBILDUNG S NEUBILDUNG S SCHULBILDUNG S UMBILDUNG 0 MNM020I *** END OF PHASE 1; 13 COMPOSITE WORDS, 28 OCCURENCES S BILDUNG S VERBILDUNG VERB ILDUNG 0 MNM020I *** END OF PHASE 2; 3 COMPOSITE WORDS, 3 OCCURENCES VERB ILDUNG 0 MNM020I *** END OF PHASE 3; 1 COMPOSITE WORDS, 1 OCCURENCES 0 MNM020I *** END OF PHASE 4; 0 COMPOSITE WORDS, 0 OCCURENCES
3 Liste der übersetzten Komposita
COMPOUND WORD LIST TEXT: PBILD COMPOUND WORD TU TRANSLATION AD-HOC-C$BILDUNG 00006 AD HOC EDUCATION AFTERBILDUNG 00081 AFTER EDUCATION ANALOGIEBILDUNG 00010 ANALOGY EDUCATION ARBEITERBILDUNG 00082 WORKER EDUCATION 22 ARTBILDUNG 00148 TYPE EDUCATION BANDENBILDUNG 00044 GANG EDUCATION BEGRIFFSBILDUNG 00092 TERM EDUCATION BERUFSFORTBILDUNG 00151 OCCUPATION FURTHER TRAINING BEWUSSTSEINSBILDUNG 00108 AWARENESS EDUCATION BLOCKBILDUNG 00018 BLOCK EDUCATION BLUTBILDUNG 00156 BLOOD EDUCATION CHARAKTERBILDUNG 00084 CHARACTER EDUCATION CLIQUENBILDUNG 00066 CLIQUE EDUCATION DELTABILDUNG 0002 DELTA EDUCATION DUENENBILDUNG 00057 DUNE EDUCATION DURCHSCHNITTSBILDUNG 00117 AVERAGE EDUCATION ELEMENTARBILDUNG 00073 ELEMENTARY EDUCATION ELITEBILDUNG 00009 ELITE EDUCATION EXERZIERAUSBILDUNG 00130 DRILLING TRAINING FACHBILDUNG 00014 SPECIALISED EDUCATION FAHRAUSBILDUNG 00131 DRIVING TRAINING FEHLBILDUNG 00028 FALSE EDUCATION FORMALAUSBILDUNG 00125 FORMAL TRAINING FRAKTIONSBILDUNG 00111 PARLIAMENTARY GROUP EDUCATION FRUCHTBILDUNG 00144 FRUIT EDUCATION FUNKENBILDUNG 00050 SPARK EDUCATION GASBILDUNG 00089 GAS EDUCATION GEFECHTSAUSBILDUNG 00138 ENGAGEMENTS TRAINING GEHOERBILDUNG 00087 HEARING EDUCATION GEISTESBILDUNG 00090 SPIRIT EDUCATION GELEGENHEITSBILDUNG 00114 OPPORTUNITY EDUCATION GEMEINSCHAFTSBILDUNG 00112 COMMUNITY EDUCATION GESCHMACKSBILDUNG 00101 TASTE EDUCATION GESCHWUERBILDUNG 00088 ULCER EDUCATION GESCHWULSTBILDUNG 00153 TUMOR EDUCATION GESICHTSBILDUNG 00113 FACE EDUCATION GESTEINSBILDUNG 00109 ROCK EDUCATION GLATTEISBILDUNG 00098 ICE EDUCATION GRANITBILDUNG 00145 GRANITE EDUCATION HALBBILDUNG 00005 HALF EDUCATION HARZBILDUNG 00168 RESIN EDUCATION HEMMUNGSBILDUNG 00094 INHIBITION EDUCATION HEMMUNGSMISSBILDUNG 00142 INHIBITION DEFORMATION HERZENSBILDUNG 00107 HEART EDUCATION HOCHSCHULBILDUNG 00030 UNIVERSITY EDUCATION HUMUSBILDUNG 00118 HUMUS EDUCATION INTENSIVBILDUNG 00162 INTENSIVE EDUCATION ITERATIVBILDUNG 00164 ITERATIVE EDUCATION JAHRESRINGBILDUNG 00012 ANNUAL SYNDICATION JAHRRINGBILDUNG 00011 ANNUAL SYNDICATION KABINETTSBILDUNG 00116 CABINET EDUCATION KABINETTSNEUBILDUNG 00161 CABINET NEW FORMATION KABINETTSUMBILDUNG 00040 CABINET REORGANISATION KAMPFAUSBILDUNG 00122 COMBAT TRAINING KAPITALBILDUNG 00025 CAPITAL EDUCATION KARTELLBILDUNG 00035 TRUST EDUCATION KASUSBILDUNG 00119 CASE EDUCATION KNOCHENBILDUNG 00047 BONE EDUCATION KNOSPENBILDUNG 00058 BUD EDUCATION KOERPERBILDUNG 00079 BODY EDUCATION KOLLEKTIVBILDUNG 00166 COLLECTIVE EDUCATION KOMPLEXAUSBILDUNG 00140 COMPLEX TRAINING KRAMPFADERBILDUNG 00078 VARICOSE VEIN EDUCATION LAUTBILDUNG 00157 ACCORDING TO EDUCATION LAWINENBILDUNG 00056 AVALANCHE EDUCATION LEHNBILDUNG 00067 LEANING EDUCATION LEHRERBILDUNG 00080 TEACHER EDUCATION LEHRERFORTBILDUNG 00150 TEACHER FURTHER TRAINING LEHRLINGAUSBILDUNG 00133 APPRENTICE TRAINING MERKMALBILDUNG 00102 CHARACTERISTIC EDUCATION MERKMALSBILDUNG 00103 CHARACTERISTIC EDUCATION MYTHENBILDUNG 00048 MYTH EDUCATION OBERSCHULBILDUNG 00032 UPPER EDUCATION OFFIZIERAUSBILDUNG 00134 OFFICER TRAINING OFFIZIERSAUSBILDUNG 00135 OFFICER TRAINING PAARBILDUNG 00074 PAIR EDUCATION PASSIVBILDUNG 00163 PASSIVE EDUCATION PERSOENLICHKEITSBILDUNG 00115 PERSONALITY EDUCATION PIGMENTBILDUNG 00146 PIGMENT EDUCATION PLURALBILDUNG 00023 PLURAL EDUCATION REGIERUNGSNEUBILDUNG 00160 GOVERNMENT NEW FORMATION REIHENBILDUNG 00046 ROW EDUCATION SCHAUMBILDUNG 00041 FOAM EDUCATION SCHIESSAUSBILDUNG 00139 SHOOTING TRAINING SCHUPPENBILDUNG 00059 SEGMENT EDUCATION SCHWEISSBILDUNG 00143 WELDING EDUCATION SINGULARBILDUNG 00072 SINGULAR EDUCATION SPALTENBILDUNG 00065 COLUMN EDUCATION SPEZIALAUSBILDUNG 00124 SPECIAL TRAINING STAERKEBILDUNG 00007 POWER EDUCATION STELLENBILDUNG 00051 PLACE EDUCATION STIMMBILDUNG 00042 MOOD EDUCATION TEXTABBILDUNG 00004 TEXT ILLUSTRATION UNIVERSALBILDUNG 00024 UNIVERSAL EDUCATION UNIVERSITAETSAUSBILDUNG 00137 UNIVERSITY TRAINING UNTEROFFIZIERSAUSBILDUNG 00136 CC$NCO TRAINING VOLKSSCHULBILDUNG 00033 PEOPLE EDUCATION WAERMEBILDUNG 00008 HEAT EDUCATION WELLENBILDUNG 00052 WAVE EDUCATION WOLKENBILDUNG 00049 CLOUD EDUCATION ZELLBILDUNG 00036 CELL EDUCATION ZELLENBILDUNG 00053 CELL EDUCATION ZUSAMMENBILDUNG 00054 TOGETHER EDUCATION ZWITTERBILDUNG 00085 HERMAPHRODITE EDUCATION
4 Komposita, die nicht segmentiert werden konnten
REAL NOT FOUND WORD LIST 24 1 EIBILDUNG (BEG CAPS) 1 SCHLICKBILDUNG (BEG CAPS) 1 PARTIZIPIALBILDUNG (BEG CAPS) 1 GYMNASIALBILDUNG (BEG CAPS) 1 GAMETENBILDUNG (BEG CAPS) 1 WAECHTENBILDUNG (BEG CAPS) 1 UNBILDUNG (BEG CAPS) 1 VERBILDUNG (BEG CAPS) 1 RUECKGRATVERBILDUNG (BEG CAPS) 1 RUECKGRATSVERBILDUNG (BEG CAPS) 1 GEBIRGSBILDUNG (BEG CAPS) 1 REKRUTENAUSBILDUNG (BEG CAPS) 1 FERMENTBILDUNG (BEG CAPS) 1 TRUSTBILDUNG (BEG CAPS) 1 KAUSATIVBILDUNG (BEG CAPS) 15 NOT FOUND
Schlußfolgerung
Nach 50 Jahren Forschung und Entwicklung auf dem Gebiet der maschinellen Übersetzung ist der große technologische Durchbruch, wie die Qualität von Computerübersetzungen entscheidend verbessert werden könnte, bisher nicht gelungen. Die Maschine hat weder Denken noch Verstehen gelernt, noch konnte ihr das jedem Humanübersetzer angeborene Sprachgefühl oder das notwendige Weltwissen vermittelt werden. Zwar tut der Computer alles, was man ihm aufträgt, schneller und zuverlässiger als das menschliche Gehirn, nur war es bis heute nicht möglich, die ganze Sprachkomplexität auch nur annähernd in eine noch so große Zahl von Rechenschritten aufzulösen. Sicherlich lassen sich mit weiterer Ausarbeitung und Verfeinerung der Algorithmen eine Reihe der oben angeschnittenen Probleme bei der Analyse der Ausgangssprache und der Synthese des Zieltextes beheben. Doch bedarf es wohl eines ansehnlichen technologischen Quantensprungs und weiterer, ständiger Entwicklungsarbeit, um nennenswerte, qualitative Verbesserungen zu erreichen. Trotz aller Unzulänglichkeiten haben die heute verfügbaren MÜ- Systeme als Werkzeuge in Verbindung mit anderen technischen Hilfsmitteln, beschränkt auf bestimmte Textarten, ausgewählte Sachgebiete und evtl mit kontrollierter Syntax und bei entsprechender Nachbearbeitung durchaus ihren Platz in einer vielsprachigen Umgebung gefunden.
ROSEMARIE SAUER-STIPPERGER
|
|
| |
|