Stichwort: Computerunterstütze Übersetzung
Linguistik, Stichworte 3 Comments »Zum Thema Übersetzen unterscheiden wir in der Computerlinguistik zwei verwandte Themen: die (bereits beschriebene) Automatische Übersetzung auf der einen und die Computergestützte Übersetzung auf der anderen Seite. Ziel der erstgenannten ist die Entwicklung von Systemen, die vollautomatisch Texte übersetzen — mit dem Ziel einer FAHQT (Merkwürdiges Kürzel: Fully Automatic High Quality Translation). Im Gegensatz dazu ist die Computergestützte Übersetzung (Kurz: CAT für Computer Aided Translation) etwas bodenständiger: Man entwickelt ganz praktische Werkzeuge, die einem menschlichen Übersetzer das Leben leichter machen sollen. Das bekannteste Ergebnis dieser Fachrichtung sind so genannte Translation-Memory Systeme (TM-Systeme) oder zu Deutsch Übersetzunsspeicher.
Das System dahinter ist einfach aber bestechend: In meiner Eigenschaft als Übersetzer produziere ich täglich den Rohstoff mit dem sie arbeiten: richtige Übersetzungen. Das TM-Systeme legt nun also ein Archiv an, in dem es jede ursprüngliche Einheit plus ihre von mir angefertigte Übersetzung abspeichert. Bei einer Einheit kann es sich um von Satzzeichen getrennte Sätze handeln, es können aber auch Wörter, Wortsequenzen oder ganze Absätze als einzelnes Segment betrachtet werden.
Kommt nun im Verlauf eines Übersetzungsprojekts der gleiche Satz an anderer Stelle vor, ersetzt ihn das TM-System durch die bereits verwendete Übersetzung. Und stoße ich auf einen Satz, der dem ersten ähnelt, mit ihm aber nicht identisch ist, bekomme ich eine Angabe über die Ähnlichkeit, einen Übersetzungsvorschlag und gegebenenfalls weitere Hinweise zur Übersetzung, davon ausgehend, dass sich ähnelnde Sätze auch ähnliche Übersetzungen haben. Dabei ist Ähnlichkeit so eine Sache, die für uns recht offensichtlich und für den Computer eine echte Herausforderung sein kann. Mit was für Mitteln man den Ähnlichkeitsgrad berechnet, werde ich in einem Artikel zur Rechtschreibkorrektur mal näher erörtern, hier jetzt erstmal eine kleine Auflistung von sich mehr oder weniger ähnelnden Sätzen um das Problem wenigstens grob zu illustrieren:
Das Bruttoeinkommen in Spanien ist gestiegen.
Das Bruttoeinkommen in Deutschland ist gestiegen.
Das Pro-Kopf-Einkommen in Deutschland stagniert.
Das Brutto– und Nettoeinkommen in ganz Asien ist zum ersten Mal seit Jahren gesunken.
Das Flutwasser in Ostdeutschland ist gestiegen.
Sie sind für ein höheres Nettoeinkommen in Deutschland auf die Barrikaden gestiegen.
Gerade die letzten beiden Sätze zeigen, dass sich vom optischen her ähnliche Sätze inhaltlich nicht wirklich ähneln müssen — dazu hat Groucho Marx ein absolut fabulöses Beispiel produziert, ein echter Hit:
Time flies like an arrow.
Fruit flies like a banana.
Na, auf Anhieb verstanden? Auch diese Sätze würde ein TM-System als ähnlich erkennen und dem Übersetzer daher einen Fuzzy-Match (im Gegensatz zum Exact-Match) melden und die passenden Übersetzungen anbieten. Ist ja auch klar: Im Gegensatz zu den meisten Ansätzen der automatischen Übersetzung versucht ein TM-System auch überhaupt nicht, den Satz syntaktisch oder semantisch zu analysieren und somit gewissermaßen zu “verstehen”. Die gesuchte Ähnlichkeit ist rein oberflächlich (auch wenn die Entwicklung natürlich längst den Weg in Richtung Verstehen eingeschlagen hat).
Neben dieser grundsätzlichen Eigenschaft, getätigte Übersetzungen zu speichern und an anderer Stelle zur Verfügung zu stellen, verfügen die verschiedenen TM-Systeme über alle möglichen Spezialitäten, mit denen sie um die Gunst der User buhlen. Die Übersetzer von Transline haben eine gute Einführung zum Thema geschrieben und gleich noch die Frage beantwortet, welches TM-System denn das Beste sei – nämlich keins; schließlich hat jeder Übersetzer andere Anforderungen. Vor allem aber hat auch jeder Kunde eigene Ansprüche: Die Frage, ob es sich lohnen würde, eine große Datenbank anzulegen, in die jeder Nutzer eines TM-Systems seine Übersetzungen ablegt um sie anderen zur Verfügung zu stellen, wird von den Profis eher verneint: Nicht nur hütet so mancher Übersetzer natürlich sein wertvolles Gedankengut, nein, häufig bringen Übersetzungen von anderen einfach auch gar nichts, wenn sie für einen anderen Auftraggeber und daher mit anderem Hintergrund erstellt wurden.
Aber TM-Systeme haben die Welt der Übersetzung in jedem Fall schon beeindruckend verändert. Während die Automatische Übersetzung noch Science Fiction und “Königsdiziplin” ist, hat die computergestützte Übersetzung längst einen großen und vor allem lukrativen Markt. Allerdings, das sollte ich wohl erwähnen, dienen TM-Systeme hauptsächlich dem Übersetzer repetitiver Texte — dem es allerdings locker mehr als 50% der Arbeit abnehmen kann: Wenn ich die technische Dokumentation zu Produkt A übersetzt habe, wird Produktbeschreibung A1 vermutlich viel davon übernehmen. Ein literarischer Übersetzer muss schon länger suchen, um einen Satz zu finden, den er genau so schon einmal übersetzt hat – und zudem geht es in der literarischen Übersetzung ja nicht zwangsläufig um eine möglichst große Einheitlichkeit der Formulierung, sondern viel häufiger spielen Kontext und individueller Stil eine Rolle. Aber, und damit müssen wir wohl noch ziemlich lange leben, dafür gibt es keine Programme: Schreiben und Übersetzen sind beides Kunstformen. Nützlich sein kann es natürlich trotzdem: Kam das Wort Kurfürst schon mal vor und wie hab ich es da übersetzt? Solche und ähnliche Fragen beantwortet das passende TM-System bequem.
Falls jemand von Euch ein TM-System mal ausprobieren möchte: Bei OmegaT handelt es sich um ein engagiertes OpenSource-Projekt auf Javabasis, das dementsprechend plattformunabhängig ist und schon ziemlich gut aussieht. Viel Spaß!
Edit: Hier noch ein Verweis auf einen Artikel von Roxomatic zu OmegaT. Vielen Dank Markus für den Hinweis!
Recent Comments