1. Regelbasiertes Stemming
  2. Ein einfacher Stemming-Algorithmus für die englische Morphologie

1. Regelbasiertes Stemming

Regelbasierte Verfahren versuchen, morphologische Veränderungen wie Flexionen und Derivationen in der natürlichen Sprache durch allgemeine Regeln zu beschreiben. Die Regeln bestehen in einer Abfolge von Anweisungen, die die Indexierungssoftware nach dem Einlesen der Zeichenketten (Wörter) aus dem Dokumententext abarbeitet. Den Inhalt der eingelesenen Zeichenketten berücksichtigt die Software nicht. Die Anweisungen des Systems untersuchen die Zeichenketten nur darauf, ob verschiedene Bedingungen erfüllt sind. Dies kann beispielsweise das Vorhandensein einer bestimmten Buchstabenfolge am Ende der Zeichenkette sein. Auf der Basis dieser erkannten Endung teilen die Regeln dem System dann mit, welche Zeichen zu entfernen, zu ergänzen oder zu ersetzen sind, damit aus einer flektierten Wortform eine Grundform entsteht oder ein Derivativ abgehängt werden kann. Regelbasiertes Stemming wird mit relativ einfachen Computerprogrammen bewerkstelligt. Die Software benötigt:

Wenn die Bedingungen nicht umsichtig formuliert sind, kann es zu Wortverstümmelungen kommen. Die Wortbedeutung ist dann nicht mehr identifizierbar oder fällt mit Wörtern ganz anderen Inhalts zusammen (Overstemming): Die Regel "entferne -ING" reduziert zwar richtig SINGING zu SING, aber auch SING zu S, BRING zu BR. Die Reihenfolge der Regelabarbeitung ist wesentlich für das Funktionieren eines Stemming-Algorithmus.

Regelbasierte Verfahren zur Wortformenreduktion haben einen Nachteil: Sie kommen nur bei Sprachen mit regelmäßiger Morphologie zu akzeptablen Ergebnissen (z.B. Englisch, Türkisch). Die deutsche Sprache ist aufgrund ihrer eher unregelmäßigen Morphologie nicht gut geeignet. Hier müssten zu viele Unregelmäßigkeiten in der Ausnahmenliste festgehalten werden bzw. die Regeln werden zu komplex. Man müsste dem Programm z. B. beibringen, künstlich auf kunst und verglich auf vergleich zu stemmen. Abhängen von lich würde zu Fehlern (künst, verg) führen.
Merke: Da jede Sprache eine individuelle Morphologie hat, benötigt man für jede Sprache ein separates Stemming-Programm.


2. Ein einfacher Stemming-Algorithmus für die englische Morphologie

Es gibt unterschiedlich komplexe Wortformenreduktionsalgorithmen für das Englische; manche beherrschen neben dem Weak Stemming auch Strong Stemming. Der bekannteste 'Stemmer' für das Englische ist der so genannte Porter-Algorithmus (Word-Dokument zum Ausdrucken - nur für WORG-Fans).

Der nachfolgende sehr schlichte Algorithmus stammt von dem Informationswissenschaftler Rainer Kuhlen. Er reduziert viele englische Wortformen auf ihre Grundform:

Erläuterung: K und V stehen für einen beliebigen Konsonanten bzw. Vokal. Kleinbuchstaben stehen für sich.

Schritt Wortendung wird zu ... Beispiel
1. ies -> y ponies -> pony
2. es -> _ [nach Ko / ch / sh / ss / zz / x] potatoes -> potato
aber: shoes -> sho!
churches -> church
3. s -> _ [nach K / e / Vy / Vo / oa / ea] dogs -> dog
sees -> see
seas -> sea
buys -> buy
4. ies' -> y ladies' -> lady
" es' -> _ heroes' -> hero
" s' -> _ cats' -> cat
5. 's -> _ cat's -> cat
" ' -> _  
6. ing -> _ [nach KK / V / x] singing -> sing
being -> be
boxing -> box
" ing -> e [nach VK] biting -> bite
7. ied -> y applied -> apply
8. ed -> _ [nach KK / V / x] relaxed -> relax
controlled -> controll!
" ed -> e [nach VK] believed -> believe

nach: Knorz 1994, S. 155/6 (Link zu "Literatur + Links")

Literaturtipp zum Weiterlesen:
Stock, Wolfgang G.: Kapitel 14 Worte. In: derselb.: Information Retrieval : Informationen suchen und finden. Berlin, München, Wien : Oldenbourg Verlag, 2007, S. 216-247.


Stand: 30. April 2018

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 5

Übung
Step 1
Step 2
Step 3
Step 4
Step 5
Lektüre 2: Algorithmen regelbasierter Verfahren

LE 04: Regelbasierte Verfahren