Schritt 1

Schritt 2

Schritt 3

Schritt 4

Schritt 5

Schritt 6

Schritt 7

 

Sie sind hier  

 

 

 

Einführung

Vortrag: S. 1

Vortrag: S. 2

Vortrag: S. 3

Aufgabe 1

Aufgabe 2

Aufgabe 3



Vortrag: S. 2 - Referent: Rainer Fuchs (Abt. Doku)


Regelbasiertes Stemming

Regelbasiertes Stemming wird mit relativ einfachen Computerprogrammen bewerkstelligt. Die Software benötigt:

Wenn die Bedingungen nicht umsichtig formuliert sind, kann es zu erheblichen Wortverstümmelungen kommen. Die Wortbedeutung ist dann nicht mehr identifizierbar oder fällt mit Wörtern ganz anderen Inhalts zusammen (overstemming): Die Regel "entferne -ING" reduziert zwar richtig SINGING zu SING aber auch SING zu S, BRING zu BR. Auch die Reihenfolge der Regelabarbeitung ist wesentlich für das Funktionieren eines Stemming-Algorithmus.

Regelbasierten Verfahren zur Wortformenreduktion haben einen Nachteil: Sie kommen nur bei Sprachen mit regelmäßiger Morphologie zu akzeptablen Ergebnissen (z.B. Englisch, Türkisch). Die deutsche Sprache ist aufgrund ihrer eher unregelmäßigen Morphologie nicht gut geeignet. Der Porter-Algorithmus kommt dagegen mit einfachen Regeln zu guten Ergebnissen. Überzeugen Sie sich selbst:

Sehen Sie sich in Porter, M. F. : An algorithm for suffix stripping, veröffentlicht in: Program 14 (1980), 130-137 einen kompletten Algorithmus für das Englische an!

Tipps für kritisches Lesen: Abschnitt 2 (2. THE ALGORITHM) führt den eigentlichen Algorithmus auf. Nach der Lektüre sollten Sie folgende Fragen beantworten können:


Frönen Sie Ihrem Spieltrieb!

Seitenanfang

zurück weiter: Vortrag: S. 3

Stand: 20. August 2003