Um den Damm end­lich mal zu bre­chen: ein klei­ner ein­füh­ren­der Arti­kel zum Pro­blem der Rechtschreibkorrektur.

Obwohl es sich bei der Recht­schreib­kor­rek­tur um eine der Erfolgs­ge­schich­ten unse­rer Wis­sen­schaft han­delt und um die Anwen­dung, die garan­tiert jeder von Euch schon mal gebrau­chen konnte, beginnt die Geschichte wie eigent­lich jede: “Recht­schreib­kor­rek­tur? Das ist doch ein­fach!”. Man braucht ja im Grunde nur ein Wör­ter­buch wo die Wör­ter rich­tig drin ste­hen und dann ver­gleicht die Soft­ware nur noch, ob alles stimmt. Denkste.

Nein, bedau­er­li­cher­weise war auch hier die Ein­sicht nötig, dass das nicht alles so leicht ist, wie man sich das gerne vor­ge­stellt hat. Und Recht­schreibkor­rek­tur; schon gar nicht: Wer von Euch ver­traut Word schon an, sein Doku­ment unge­steu­ert zu kor­ri­gie­ren? Am nütz­lichs­ten sind eben doch die klei­nen roten Linien, die auf mög­li­che Feh­ler hin­wei­sen. Also eigent­lich ist es nur eine Recht­schreibfeh­ler­su­che. Und das müsste ja noch leich­ter sein. So oder so: alles beginnt mit einer ganz ent­schei­de­nen Frage: Was ist ein Fehler?

Klar, die Ant­wort ist leicht gege­ben: Ein falsch geschrie­be­nes Wort. Wir nen­nen sol­che fal­schen Wör­ter gerne auch Nicht­wör­ter oder eng­lisch Non-Words. Alles, was nicht im Wör­ter­buch steht ist also ein Non-Word. Punkt und aus. Recht­schreib­feh­ler­su­che ist also schon mal abge­schlos­sen. Vor­aus­ge­setzt natür­lich, dass wir ein ziem­lich gro­ßes Lexi­kon haben, denn sonst gel­ten etwas unge­wöhn­li­chere Wör­ter schnell als falsch. Ein wei­te­res Pro­blem sind flek­tierte, also von ihrer Grund­form abwei­chende Wör­ter. Ent­we­der bringt man dem Pro­gramm bei, Wör­ter den Regeln ent­spre­chend selb­stän­dig zu beu­gen oder man ver­grö­ßert das Wör­ter­buch soweit, bis alle For­men einen eige­nen Ein­trag bekom­men. Beide Mög­lich­kei­ten haben ihre Pro­bleme und Vor­teile:
Toll an einem Regelle­xi­kon ist, dass es alle (regel­mä­ßi­gen) For­men von dekli­nier­ten und kon­ju­gier­ten Wor­ten ermit­teln kann. Der Nach­teil steckt aber im sel­ben Detail: Ein Regelle­xi­kon erkennt gebrun­gen als tadel­lo­ses deut­sches Wort an, wobei wir als kun­dige Spre­cher natür­lich wis­sen, dass es gebracht hei­ßen müsste. Ein wei­te­rer Vor­teil ist, dass ein Regelle­xi­kon sogar dazu in der Lage ist, die für das Deut­sche so übli­chen Kom­po­si­tio­nen, also zusam­men­ge­setzte Wör­ter wie Mit­be­woh­ner­ab­schieds­feier­ein­la­dungs­rund­schrei­ben, zu erken­nen. Inter­es­sant ist aber, dass das wie­derum gewisse Pro­bleme auf­wirft. Eins davon ist das so genannte Fugen-S. Das Fugen-S wird mal gebraucht, um eine Abhän­gig­keit in Kom­po­sita zu signa­li­sie­ren (“Bischofs­stab” -> Der Stab des Bischofs) und mal, weil es schö­ner klingt (“Ein­kaufs­zet­tel” -> *Der Zet­tel des Ein­kaufs?). Und manch­mal sagt man es auch bes­ser nicht (“Mor­gen­rot” -> Das Rot des Mor­gens). Sowas kann eine Recht­schreib­feh­ler­such­soft­ware natür­lich nicht unter­schei­den. Word z.B. akzep­tiert sowohl Him­melsfahrt­kom­mando als auch Him­mels­fahrtskom­mando und Him­melsfahrtskom­mando und Him­mel­fahrt­kom­mando.
Und für beide Lexi­ka­ty­pen gilt — für das Voll­for­men­le­xi­kon um so mehr — ein irri­tie­ren­des Gebot der Pra­xis: Je mehr Wör­ter ein Wör­ter­buch ent­hält, um so bes­ser wird es — bis es wie­der schlech­ter wird. Ent­hält ein Lexi­kon zu viele Wör­ter, sinkt sein Unter­schei­dungs­ver­mö­gen deut­lich, da bei vie­len Tipp­feh­lern eben Wör­ter her­aus­kom­men, die in den meis­ten Kon­tex­ten eben nicht gebraucht wer­den — die Pro­gramme arbei­ten in der Tat bes­ser, wenn sie sel­tene Feh­ler in Kauf neh­men anstatt zu viele zu sel­tene Wör­ter ins Sys­tem mit aufzunehmen.

Die meis­ten aktu­el­len Ansätze arbei­ten dem­zu­folge mit einer Kom­bi­na­tion bei­der Lexi­kon­ty­pen. Eine robuste Ein­heit zum flek­tie­ren von regel­mä­ßi­gen Ver­ben und zum Erken­nen von Kom­po­sita zusam­men mit einem umfang­rei­chen Lexi­kon ergänzt um unre­gel­mä­ßige Aus­drü­cke und Aus­nah­men für das regel­ba­sierte System.

Nächs­tes mal dann ein biss­chen zum eigent­li­chen Suchen.

Post to Twitter Tweet This Post