Zum Thema Über­set­zen unter­schei­den wir in der Com­pu­ter­lin­gu­is­tik zwei ver­wandte The­men: die (bereits beschrie­bene) Auto­ma­ti­sche Über­set­zung auf der einen und die Com­pu­ter­ge­stützte Über­set­zung auf der ande­ren Seite. Ziel der erst­ge­nann­ten ist die Ent­wick­lung von Sys­te­men, die voll­au­to­ma­tisch Texte über­set­zen — mit dem Ziel einer FAHQT (Merk­wür­di­ges Kür­zel: Fully Auto­ma­tic High Qua­lity Trans­la­tion). Im Gegen­satz dazu ist die Com­pu­ter­ge­stützte Über­set­zung (Kurz: CAT für Com­pu­ter Aided Trans­la­tion) etwas boden­stän­di­ger: Man ent­wi­ckelt ganz prak­ti­sche Werk­zeuge, die einem mensch­li­chen Über­set­zer das Leben leich­ter machen sol­len. Das bekann­teste Ergeb­nis die­ser Fach­rich­tung sind so genannte Translation-Memory Sys­teme (TM-Systeme) oder zu Deutsch Über­set­zuns­spei­cher.

Das Sys­tem dahin­ter ist ein­fach aber beste­chend: In mei­ner Eigen­schaft als Über­set­zer pro­du­ziere ich täg­lich den Roh­stoff mit dem sie arbei­ten: rich­tige Über­set­zun­gen. Das TM-Systeme legt nun also ein Archiv an, in dem es jede ursprüng­li­che Ein­heit plus ihre von mir ange­fer­tigte Über­set­zung abspei­chert. Bei einer Ein­heit kann es sich um von Satz­zei­chen getrennte Sätze han­deln, es kön­nen aber auch Wör­ter, Wort­se­quen­zen oder ganze Absätze als ein­zel­nes Seg­ment betrach­tet werden.

Kommt nun im Ver­lauf eines Über­set­zungs­pro­jekts der glei­che Satz an ande­rer Stelle vor, ersetzt ihn das TM-System durch die bereits ver­wen­dete Über­set­zung. Und stoße ich auf einen Satz, der dem ers­ten ähnelt, mit ihm aber nicht iden­tisch ist, bekomme ich eine Angabe über die Ähnlich­keit, einen Über­set­zungs­vor­schlag und gege­be­nen­falls wei­tere Hin­weise zur Über­set­zung, davon aus­ge­hend, dass sich ähnelnde Sätze auch ähnli­che Über­set­zun­gen haben. Dabei ist Ähnlich­keit so eine Sache, die für uns recht offen­sicht­lich und für den Com­pu­ter eine echte Her­aus­for­de­rung sein kann. Mit was für Mit­teln man den Ähnlich­keits­grad berech­net, werde ich in einem Arti­kel zur Recht­schreib­kor­rek­tur mal näher erör­tern, hier jetzt erst­mal eine kleine Auf­lis­tung von sich mehr oder weni­ger ähneln­den Sät­zen um das Pro­blem wenigs­tens grob zu illustrieren:

Das Brut­to­ein­kom­men in Spa­nien ist gestiegen.

Das Brut­to­ein­kom­men in Deutsch­land ist gestiegen.

Das Pro-Kopf-Einkommen in Deutsch­land stagniert.

Das Brutto– und Net­to­ein­kom­men in ganz Asien ist zum ers­ten Mal seit Jah­ren gesunken.

Das Flut­was­ser in Ost­deutsch­land ist gestiegen.

Sie sind für ein höhe­res Net­to­ein­kom­men in Deutsch­land auf die Bar­ri­ka­den gestiegen.

Gerade die letz­ten bei­den Sätze zei­gen, dass sich vom opti­schen her ähnli­che Sätze inhalt­lich nicht wirk­lich ähneln müs­sen — dazu hat Groucho Marx ein abso­lut fabu­lö­ses Bei­spiel pro­du­ziert, ein ech­ter Hit:

Time flies like an arrow.

Fruit flies like a banana.

Na, auf Anhieb ver­stan­den? Auch diese Sätze würde ein TM-System als ähnlich erken­nen und dem Über­set­zer daher einen Fuzzy-Match (im Gegen­satz zum Exact-Match) mel­den und die pas­sen­den Über­set­zun­gen anbie­ten. Ist ja auch klar: Im Gegen­satz zu den meis­ten Ansät­zen der auto­ma­ti­schen Über­set­zung ver­sucht ein TM-System auch über­haupt nicht, den Satz syn­tak­tisch oder seman­tisch zu ana­ly­sie­ren und somit gewis­ser­ma­ßen zu “ver­ste­hen”. Die gesuchte Ähnlich­keit ist rein ober­fläch­lich (auch wenn die Ent­wick­lung natür­lich längst den Weg in Rich­tung Ver­ste­hen ein­ge­schla­gen hat).

Neben die­ser grund­sätz­li­chen Eigen­schaft, getä­tigte Über­set­zun­gen zu spei­chern und an ande­rer Stelle zur Ver­fü­gung zu stel­len, ver­fü­gen die ver­schie­de­nen TM-Systeme über alle mög­li­chen Spe­zia­li­tä­ten, mit denen sie um die Gunst der User buh­len. Die Über­set­zer von Trans­line haben eine gute Ein­füh­rung zum Thema geschrie­ben und gleich noch die Frage beant­wor­tet, wel­ches TM-System denn das Beste sei – näm­lich keins; schließ­lich hat jeder Über­set­zer andere Anfor­de­run­gen. Vor allem aber hat auch jeder Kunde eigene Ansprü­che: Die Frage, ob es sich loh­nen würde, eine große Daten­bank anzu­le­gen, in die jeder Nut­zer eines TM-Systems seine Über­set­zun­gen ablegt um sie ande­ren zur Ver­fü­gung zu stel­len, wird von den Pro­fis eher ver­neint: Nicht nur hütet so man­cher Über­set­zer natür­lich sein wert­vol­les Gedan­ken­gut, nein, häu­fig brin­gen Über­set­zun­gen von ande­ren ein­fach auch gar nichts, wenn sie für einen ande­ren Auf­trag­ge­ber und daher mit ande­rem Hin­ter­grund erstellt wurden.

Aber TM-Systeme haben die Welt der Über­set­zung in jedem Fall schon beein­dru­ckend ver­än­dert. Wäh­rend die Auto­ma­ti­sche Über­set­zung noch Sci­ence Fic­tion und “Königs­di­zi­plin” ist, hat die com­pu­ter­ge­stützte Über­set­zung längst einen gro­ßen und vor allem lukra­ti­ven Markt. Aller­dings, das sollte ich wohl erwäh­nen, die­nen TM-Systeme haupt­säch­lich dem Über­set­zer repe­ti­ti­ver Texte — dem es aller­dings locker mehr als 50% der Arbeit abneh­men kann: Wenn ich die tech­ni­sche Doku­men­ta­tion zu Pro­dukt A über­setzt habe, wird Pro­dukt­be­schrei­bung A1 ver­mut­lich viel davon über­neh­men. Ein lite­ra­ri­scher Über­set­zer muss schon län­ger suchen, um einen Satz zu fin­den, den er genau so schon ein­mal über­setzt hat – und zudem geht es in der lite­ra­ri­schen Über­set­zung ja nicht zwangs­läu­fig um eine mög­lichst große Ein­heit­lich­keit der For­mu­lie­rung, son­dern viel häu­fi­ger spie­len Kon­text und indi­vi­du­el­ler Stil eine Rolle. Aber, und damit müs­sen wir wohl noch ziem­lich lange leben, dafür gibt es keine Pro­gramme: Schrei­ben und Über­set­zen sind bei­des Kunst­for­men. Nütz­lich sein kann es natür­lich trotz­dem: Kam das Wort Kur­fürst schon mal vor und wie hab ich es da über­setzt? Sol­che und ähnli­che Fra­gen beant­wor­tet das pas­sende TM-System bequem.

Falls jemand von Euch ein TM-System mal aus­pro­bie­ren möchte: Bei Ome­gaT han­delt es sich um ein enga­gier­tes OpenSource-Projekt auf Java­ba­sis, das dem­ent­spre­chend platt­for­mu­n­ab­hän­gig ist und schon ziem­lich gut aus­sieht. Viel Spaß!

Edit: Hier noch ein Ver­weis auf einen Arti­kel von Roxo­ma­tic zu Ome­gaT. Vie­len Dank Mar­kus für den Hinweis!

Post to Twitter Tweet This Post