Regelbasiertes Stemming wird mit relativ einfachen Computerprogrammen bewerkstelligt. Die Software benötigt:
Wenn die Bedingungen nicht umsichtig formuliert sind, kann es zu erheblichen Wortverstümmelungen kommen. Die Wortbedeutung ist dann nicht mehr identifizierbar oder fällt mit Wörtern ganz anderen Inhalts zusammen (Overstemming): Die Regel "entferne -ING" reduziert zwar richtig SINGING zu SING, aber auch SING zu S, BRING zu BR. Die Reihenfolge der Regelabarbeitung ist wesentlich für das Funktionieren eines Stemming-Algorithmus.
Regelbasierte Verfahren zur Wortformenreduktion haben einen Nachteil: Sie kommen nur bei Sprachen mit regelmäßiger Morphologie zu akzeptablen Ergebnissen (z.B. Englisch, Türkisch). Die deutsche Sprache ist aufgrund ihrer eher unregelmäßigen Morphologie nicht gut geeignet. Da jede Sprache eine individuelle Morphologie hat, benötigt man für jede Sprache ein separates Stemming-Programm.
Es gibt unterschiedlich komplexe Wortformenreduktionsalgorithmen für das Englische; manche beherrschen neben dem Weak Stemming auch Strong Stemming. Der bekannteste 'Stemmer' für das Englische ist der so genannte Porter-Algorithmus (Word-Dokument zum Ausdrucken - nur für WORG-Fans). Einen knappen Überblick liefert der Artikel Porter-Stemmer-Algorithmus aus der Wikipedia.
Die nachfolgenden sehr schlichten Regeln wurden von dem Informationswissenschaftler Rainer Kuhlen formuliert. Er reduziert viele englische Wortformen auf ihre Grundform:
Erläuterung: K und V stehen für einen beliebigen Konsonanten bzw. Vokal. Kleinbuchstaben stehen für sich.
Schritt | Wortendung | wird zu ... | Beispiel |
1. | ies | -> y | ponies -> pony |
2. | es | -> _ [nach Ko / ch / sh / ss / zz / x] | potatoes -> potato aber: shoes -> sho! churches -> church |
3. | s | -> _ [nach K / e / Vy / Vo / oa / ea] | dogs -> dog sees -> see seas -> sea buys -> buy |
4. | ies' | -> y | ladies' -> lady |
" | es' | -> _ | heroes' -> hero |
" | s' | -> _ | cats' -> cat |
5. | 's | -> _ | cat's -> cat |
" | ' | -> _ | |
6. | ing | -> _ [nach KK / V / x] | singing -> sing being -> be boxing -> box |
" | ing | -> e [nach VK] | biting -> bite |
7. | ied | -> y | applied -> apply |
8. | ed | -> _ [nach KK / V / x] | relaxed -> relax controlled -> controll! |
" | ed | -> e [nach VK] | believed -> believe |
nach: Knorz 1994, S. 155/6 (Link zu "Literatur + Links")
Stand: 1. März 2005