Regelbasierte linguistische Verfahren
14.04.2005
Entfernen Sie die Stoppworte und führen Sie mit Hilfe des Kuhlen Regelwerks ein Stemming durch (steming-aufgab.doc im Worg3-Ordner).
Wir haben erkannt, dass der von Rainer Kuhlen ermittelte Algorithmus (nur für englischen Wortformen) viele Wörter auf sinnvolle Grundformen reduziert (Bsp. seems - seem; anyone's - anyone). Allerdings erkennt der Algorithmus keine Ausnahmen. So wurde "nothing" auf "noth" reduziert und "access" auf "acces".
Eine vollkommen zufriedenstellende Möglichkeit der automatischen Indexierung ist also auch diese Stemming-Methode nicht.
Die Besprechung der Übung zu Lerneinheit 3 führte zu folgenden Ergebnissen:
- Die Zerlegung von Komposita wird für eine Software problematisch.
- Suffixe können für die Software leichter erkannt und entfernt werden als Präfixe.
- Bei der automatischen Indexierung kann die Grundform leichter gebildet werden als die Stammform.
- Es gibt im Deutschen keine allgemeingültigen Regeln für Fugenmorpheme.
- Die Unterscheidung von einer grammatikalischen und linguistischen Grundform ist von Bedeutung. Beispiel: spielst - grammatikalische Grundform = spielen, also die Infinitivform eines Verbs. linguistische Grundform = spiel
- Regeln können einfacher für die englische Sprache erstellt und programmiert werden.
Neu gelernt wurde eine Anwendungsmöglichkeit der morphologischen Grundlagen für die automatische Indexierung: das Stemming, die Wortformenreduktion. Eine Software, die Stemming anwendet, reduziert in einem Text vorhandene Wörter entweder bis auf die Grundform (weak stemming) oder auch bis auf die Stammform (strong stemming). Dies geschieht durch programmierte Regeln für die Entfernung z.B. von Suffixen.
Leider gibt es bei diesem Verfahren auch zwei Probleme:
Beim Overstemming werden Wörter, die unterschiedliche Bedeutungen haben, so stark reduziert, dass eine gleiche Form ermittelt wird (Bsp. Wunde und wundern wird zu wund).
Beim Understemming wird bei Wörtern, die die gleiche Bedeutung haben, so wenig "abgeschnitten", dass nicht die gleiche Form entsteht und dadurch zwei Indexate entstehen würden (Bsp. compose - compos; composition - composit).
Mögliche Lösungsansätze, um diese unerwünschten Effekte zu umgehen, wären ein lexikalischer Abgleich und eingegebene Zusatzmerkmale in der Software, die Zusammenhänge aus dem Context erkennen könnten.
Für das in der Übung zu LE 3 aufgetretene Problem der Kompositazerlegung wurde ein "Trick" kennengelernt: Das Wort wird von hinten nach vorne Buchstabe für Buchstabe gelesen. Dabei stoppt die Software erst, wenn sie aus dem Kompositum das längstmögliche sinnvolle Wort ermittelt hat. Fugenmorpheme werden übersprungen, wenn sich kein sinnvolles Wort ergibt.
Frau Spree hat zwei Websites vorgestellt, die bei etymologischen und linguistischen Problemen und Fragen hilfreich sein können:
http://www.dwb.uni-trier.de/ (etymologisches Wörterbuch)
http://wortschatz.uni-leipzig.de/ (linguistisches Wörterbuch)
Die Aufstellung von Wortbildungs- bzw. Wortzerlegungs-Regeln ist besonders in der deutschen Sprache schwierig, aber auch im Englischen ist es nicht einfach, eine hundertprozentig zufriedenstellende Lösung zu finden. Programme, die automatisch indexieren, müssen aufwändig mit Algorithmen und Regeln ausgestattet sein, um nützliche Ergebnisse erzielen zu können.