Stichwort: Rechtschreibkorrektur — Teil 1
Linguistik, Stichworte Mai 15th, 2008Um den Damm endlich mal zu brechen: ein kleiner einführender Artikel zum Problem der Rechtschreibkorrektur.
Obwohl es sich bei der Rechtschreibkorrektur um eine der Erfolgsgeschichten unserer Wissenschaft handelt und um die Anwendung, die garantiert jeder von Euch schon mal gebrauchen konnte, beginnt die Geschichte wie eigentlich jede: “Rechtschreibkorrektur? Das ist doch einfach!”. Man braucht ja im Grunde nur ein Wörterbuch wo die Wörter richtig drin stehen und dann vergleicht die Software nur noch, ob alles stimmt. Denkste.
Nein, bedauerlicherweise war auch hier die Einsicht nötig, dass das nicht alles so leicht ist, wie man sich das gerne vorgestellt hat. Und Rechtschreibkorrektur; schon gar nicht: Wer von Euch vertraut Word schon an, sein Dokument ungesteuert zu korrigieren? Am nützlichsten sind eben doch die kleinen roten Linien, die auf mögliche Fehler hinweisen. Also eigentlich ist es nur eine Rechtschreibfehlersuche. Und das müsste ja noch leichter sein. So oder so: alles beginnt mit einer ganz entscheidenen Frage: Was ist ein Fehler?
Klar, die Antwort ist leicht gegeben: Ein falsch geschriebenes Wort. Wir nennen solche falschen Wörter gerne auch Nichtwörter oder englisch Non-Words. Alles, was nicht im Wörterbuch steht ist also ein Non-Word. Punkt und aus. Rechtschreibfehlersuche ist also schon mal abgeschlossen. Vorausgesetzt natürlich, dass wir ein ziemlich großes Lexikon haben, denn sonst gelten etwas ungewöhnlichere Wörter schnell als falsch. Ein weiteres Problem sind flektierte, also von ihrer Grundform abweichende Wörter. Entweder bringt man dem Programm bei, Wörter den Regeln entsprechend selbständig zu beugen oder man vergrößert das Wörterbuch soweit, bis alle Formen einen eigenen Eintrag bekommen. Beide Möglichkeiten haben ihre Probleme und Vorteile:
Toll an einem Regellexikon ist, dass es alle (regelmäßigen) Formen von deklinierten und konjugierten Worten ermitteln kann. Der Nachteil steckt aber im selben Detail: Ein Regellexikon erkennt gebrungen als tadelloses deutsches Wort an, wobei wir als kundige Sprecher natürlich wissen, dass es gebracht heißen müsste. Ein weiterer Vorteil ist, dass ein Regellexikon sogar dazu in der Lage ist, die für das Deutsche so üblichen Kompositionen, also zusammengesetzte Wörter wie Mitbewohnerabschiedsfeiereinladungsrundschreiben, zu erkennen. Interessant ist aber, dass das wiederum gewisse Probleme aufwirft. Eins davon ist das so genannte Fugen-S. Das Fugen-S wird mal gebraucht, um eine Abhängigkeit in Komposita zu signalisieren (“Bischofsstab” -> Der Stab des Bischofs) und mal, weil es schöner klingt (“Einkaufszettel” -> *Der Zettel des Einkaufs?). Und manchmal sagt man es auch besser nicht (“Morgenrot” -> Das Rot des Morgens). Sowas kann eine Rechtschreibfehlersuchsoftware natürlich nicht unterscheiden. Word z.B. akzeptiert sowohl Himmelsfahrtkommando als auch Himmelsfahrtskommando und Himmelsfahrtskommando und Himmelfahrtkommando.
Und für beide Lexikatypen gilt — für das Vollformenlexikon um so mehr — ein irritierendes Gebot der Praxis: Je mehr Wörter ein Wörterbuch enthält, um so besser wird es — bis es wieder schlechter wird. Enthält ein Lexikon zu viele Wörter, sinkt sein Unterscheidungsvermögen deutlich, da bei vielen Tippfehlern eben Wörter herauskommen, die in den meisten Kontexten eben nicht gebraucht werden — die Programme arbeiten in der Tat besser, wenn sie seltene Fehler in Kauf nehmen anstatt zu viele zu seltene Wörter ins System mit aufzunehmen.
Die meisten aktuellen Ansätze arbeiten demzufolge mit einer Kombination beider Lexikontypen. Eine robuste Einheit zum flektieren von regelmäßigen Verben und zum Erkennen von Komposita zusammen mit einem umfangreichen Lexikon ergänzt um unregelmäßige Ausdrücke und Ausnahmen für das regelbasierte System.
Nächstes mal dann ein bisschen zum eigentlichen Suchen.
Recent Comments