Wohl jeder PC-Nutzer setzt sich früher oder später mit dem Thema Rechtschreibkorrektur auseinander, ohne eigentlich zu wissen, was dort passiert. Der vorliegende Beitrag widmet sich diesem Thema anhand einer empirischen Untersuchung. Im ersten Teil wird eine umfassende Einführung in die theoretischen Grundlagen unternommen, indem die zur Anwendung kommenden probabilistischen Algorithmen vorgestellt werden. Anschließend werden die computerlinguistischen Verarbeitungsschemata zur Modellierung von Flexionsformen und Komposita behandelt (Levenshtein-Distanz, endliche Automaten, Finite-State-Transducer). Im zweiten Teil wird ein vergleichender Test zwischen dem Korrektursystem von Microsoft Word 2000 und dem Spell-Checker Ditect, der unter anderem in StarOffice und dem Verlagshaus Madsack eingesetzt wird, unternommen. Der Test wird anhand eines 50.000 Wörter umfassenden Korpus aus Zeitungstexten des Madsack-Verlages durchgeführt und die Resultate anhand der häufigsten Fehlerkategorien bewertet und diskutiert. Anschließend folgt ein analytischer Test, in dem ausgesuchte Problembereiche, insbesondere die Getrennt- und Zusammenschreibung und Groß- und Kleinschreibung geprüft werden.
|