Regelbasierte Verfahren versuchen, morphologische Veränderungen wie Flexionen und Derivationen in der natürlichen Sprache durch allgemeine Regeln zu beschreiben. Die Regeln bestehen in einer Abfolge von Anweisungen, die die Indexierungssoftware nach dem Einlesen der Zeichenketten (Wörter) aus dem Dokumententext abarbeitet. Den Inhalt der eingelesenen Zeichenketten berücksichtigt die Software nicht. Die Anweisungen des Systems untersuchen die Zeichenketten nur darauf, ob verschiedene Bedingungen erfüllt sind. Dies kann beispielsweise das Vorhandensein einer bestimmten Buchstabenfolge am Ende der Zeichenkette sein. Auf der Basis dieser erkannten Endung teilen die Regeln dem System dann mit, welche Zeichen zu entfernen, zu ergänzen oder zu ersetzen sind, damit aus einer flektierten Wortform eine Grundform entsteht oder ein Derivativ abgehängt werden kann. Regelbasiertes Stemming wird mit relativ einfachen Computerprogrammen bewerkstelligt. Die Software benötigt:
Wenn die Bedingungen nicht umsichtig formuliert sind, kann es zu Wortverstümmelungen kommen. Die Wortbedeutung ist dann nicht mehr identifizierbar oder fällt mit Wörtern ganz anderen Inhalts zusammen (Overstemming): Die Regel "entferne -ING" reduziert zwar richtig SINGING zu SING, aber auch SING zu S, BRING zu BR. Die Reihenfolge der Regelabarbeitung ist wesentlich für das Funktionieren eines Stemming-Algorithmus.
Regelbasierte Verfahren zur Wortformenreduktion haben einen Nachteil: Sie kommen nur bei Sprachen mit regelmäßiger Morphologie zu akzeptablen Ergebnissen (z.B. Englisch, Türkisch). Die deutsche Sprache ist aufgrund ihrer eher unregelmäßigen Morphologie nicht gut geeignet. Hier müssten zu viele Unregelmäßigkeiten in der Ausnahmenliste festgehalten werden bzw. die Regeln werden zu komplex. Man müsste dem Programm z. B. beibringen, künstlich auf kunst und verglich auf vergleich zu stemmen. Abhängen von lich würde zu Fehlern (künst, verg) führen.
Merke: Da jede Sprache eine individuelle Morphologie hat, benötigt man für jede Sprache ein separates Stemming-Programm.
Es gibt unterschiedlich komplexe Wortformenreduktionsalgorithmen für das Englische; manche beherrschen neben dem Weak Stemming auch Strong Stemming. Der bekannteste 'Stemmer' für das Englische ist der so genannte Porter-Algorithmus (Word-Dokument zum Ausdrucken - nur für WORG-Fans).
Der nachfolgende sehr schlichte Algorithmus stammt von dem Informationswissenschaftler Rainer Kuhlen. Er reduziert viele englische Wortformen auf ihre Grundform:
Erläuterung: K und V stehen für einen beliebigen Konsonanten bzw. Vokal. Kleinbuchstaben stehen für sich.
Schritt | Wortendung | wird zu ... | Beispiel |
1. | ies | -> y | ponies -> pony |
2. | es | -> _ [nach Ko / ch / sh / ss / zz / x] | potatoes -> potato aber: shoes -> sho! churches -> church |
3. | s | -> _ [nach K / e / Vy / Vo / oa / ea] | dogs -> dog sees -> see seas -> sea buys -> buy |
4. | ies' | -> y | ladies' -> lady |
" | es' | -> _ | heroes' -> hero |
" | s' | -> _ | cats' -> cat |
5. | 's | -> _ | cat's -> cat |
" | ' | -> _ | |
6. | ing | -> _ [nach KK / V / x] | singing -> sing being -> be boxing -> box |
" | ing | -> e [nach VK] | biting -> bite |
7. | ied | -> y | applied -> apply |
8. | ed | -> _ [nach KK / V / x] | relaxed -> relax controlled -> controll! |
" | ed | -> e [nach VK] | believed -> believe |
nach: Knorz 1994, S. 155/6 (Link zu "Literatur + Links")
Literaturtipp zum Weiterlesen:
Stock, Wolfgang G.: Kapitel 14 Worte. In: derselb.: Information Retrieval : Informationen suchen und finden. Berlin, München, Wien : Oldenbourg Verlag, 2007, S. 216-247.
Stand: 30. April 2018