1. Regelbasiertes Stemming
  2. Ein einfacher Stemming-Algorithmus für die englische Morphologie

1. Regelbasiertes Stemming

Regelbasiertes Stemming wird mit relativ einfachen Computerprogrammen bewerkstelligt. Die Software benötigt:

Wenn die Bedingungen nicht umsichtig formuliert sind, kann es zu erheblichen Wortverstümmelungen kommen. Die Wortbedeutung ist dann nicht mehr identifizierbar oder fällt mit Wörtern ganz anderen Inhalts zusammen (Overstemming): Die Regel "entferne -ING" reduziert zwar richtig SINGING zu SING, aber auch SING zu S, BRING zu BR. Die Reihenfolge der Regelabarbeitung ist wesentlich für das Funktionieren eines Stemming-Algorithmus.

Regelbasierte Verfahren zur Wortformenreduktion haben einen Nachteil: Sie kommen nur bei Sprachen mit regelmäßiger Morphologie zu akzeptablen Ergebnissen (z.B. Englisch, Türkisch). Die deutsche Sprache ist aufgrund ihrer eher unregelmäßigen Morphologie nicht gut geeignet. Da jede Sprache eine individuelle Morphologie hat, benötigt man für jede Sprache ein separates Stemming-Programm.


2. Ein einfacher Stemming-Algorithmus für die englische Morphologie

Es gibt unterschiedlich komplexe Wortformenreduktionsalgorithmen für das Englische; manche beherrschen neben dem Weak Stemming auch Strong Stemming. Der bekannteste 'Stemmer' für das Englische ist der so genannte Porter-Algorithmus (Word-Dokument zum Ausdrucken - nur für WORG-Fans). Einen knappen Überblick liefert der Artikel Porter-Stemmer-Algorithmus aus der Wikipedia.

Die nachfolgenden sehr schlichten Regeln wurden von dem Informationswissenschaftler Rainer Kuhlen formuliert. Er reduziert viele englische Wortformen auf ihre Grundform:

Erläuterung: K und V stehen für einen beliebigen Konsonanten bzw. Vokal. Kleinbuchstaben stehen für sich.

Schritt Wortendung wird zu ... Beispiel
1. ies -> y ponies -> pony
2. es -> _ [nach Ko / ch / sh / ss / zz / x] potatoes -> potato
aber: shoes -> sho!
churches -> church
3. s -> _ [nach K / e / Vy / Vo / oa / ea] dogs -> dog
sees -> see
seas -> sea
buys -> buy
4. ies' -> y ladies' -> lady
" es' -> _ heroes' -> hero
" s' -> _ cats' -> cat
5. 's -> _ cat's -> cat
" ' -> _  
6. ing -> _ [nach KK / V / x] singing -> sing
being -> be
boxing -> box
" ing -> e [nach VK] biting -> bite
7. ied -> y applied -> apply
8. ed -> _ [nach KK / V / x] relaxed -> relax
controlled -> controll!
" ed -> e [nach VK] believed -> believe

nach: Knorz 1994, S. 155/6 (Link zu "Literatur + Links")


Stand: 1. März 2005

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 5

Übung
Step 1
Step 2
Step 3
Step 4
Step 5
Lektüre 2: Algorithmen regelbasierter Verfahren

LE 04: Regelbasierte Verfahren