Schritt 1 |
Schritt 2 |
Schritt 3 |
Schritt 4 |
Schritt 5 |
Schritt 6 |
Schritt 7 |
|
|
|
|
|
|
|
||
Vortrag: S. 2 |
Regelbasiertes Stemming wird mit relativ einfachen Computerprogrammen bewerkstelligt. Die Software benötigt:
Wenn die Bedingungen nicht umsichtig formuliert sind, kann es zu erheblichen Wortverstümmelungen kommen. Die Wortbedeutung ist dann nicht mehr identifizierbar oder fällt mit Wörtern ganz anderen Inhalts zusammen (overstemming): Die Regel "entferne -ING" reduziert zwar richtig SINGING zu SING aber auch SING zu S, BRING zu BR. Auch die Reihenfolge der Regelabarbeitung ist wesentlich für das Funktionieren eines Stemming-Algorithmus.
Regelbasierten Verfahren zur Wortformenreduktion haben einen Nachteil: Sie kommen nur bei Sprachen mit regelmäßiger Morphologie zu akzeptablen Ergebnissen (z.B. Englisch, Türkisch). Die deutsche Sprache ist aufgrund ihrer eher unregelmäßigen Morphologie nicht gut geeignet. Der Porter-Algorithmus kommt dagegen mit einfachen Regeln zu guten Ergebnissen. Überzeugen Sie sich selbst:
Sehen Sie sich in Porter, M. F. : An algorithm for suffix stripping, veröffentlicht in: Program 14 (1980), 130-137 einen kompletten Algorithmus für das Englische an!
Tipps für kritisches Lesen: Abschnitt 2 (2. THE ALGORITHM) führt den eigentlichen Algorithmus auf. Nach der Lektüre sollten Sie folgende Fragen beantworten können:
Frönen Sie Ihrem Spieltrieb!
|
zurück | weiter: Vortrag: S. 3 |
Stand: 20. August 2003