Regelwerk Grundformenreduktion für die englische Sprache
 

Linguistische Aspekte der automatischen Indexierung: Regelwerksbasierte Verfahren

Regeln zur Grundformenreduktion

Rainer Kuhlen hat auf der Grundlage des komplexen Algorithmus von M. F. Porter folgende Regeln entwickelt, mit deren Hilfe englische Wörter auf ihre Grundform reduziert werden können.
Erläuterung: Links vom Pfeil steht die vorgefundene Wortendung, die durch die neue Endung (rechts vom Pfeil) ersetzt werden soll, sofern die in eckigen Klammern genannte Bedingung (Restriktion) zutrifft.

Um die Restriktionen einfach formulieren zu können, werden folgende abkürzende Bezeichnungen verwendet:

% alle Vokale, sowie auch "Y"
* alle Konsonanten
_ Leere Zeichenfolge ("Kein" Zeichen!)
/ Logischer ODER-Operator

Gleiche Sonderzeichen bedeuten allerdings nicht "dieselben Buchstaben"! Also: "**" steht z.B. für ct, rg, nn, nt, ...

Das Regelwerk besteht aus insgesamt 8 Regeln:

  1. IES --> Y
  2. ES --> _ [wenn *O / CH / SH / SS / ZZ / X vorausgehen]
  3. S --> _ [wenn * / E / %Y / %O / OA / EA vorausgehen]
  4. IES' --> Y
    ES' --> S
    S' --> _
  5. 'S --> _
    ' --> _
  6. ING --> _ [wenn ** / % / X vorausgehen]
    ING --> E [wenn %* vorausgehen]
  7. IED --> Y
  8. ED --> _ [wenn ** / % / X vorausgehen]
    ED --> E [wenn %* vorausgehen]

Beispiele:
companies --> company
churches --> church
books --> book
boy's --> boy
singing --> sing
writing --> write

fachhochschule für angewandte wissenschaften hamburg
Fachbereich BUI
Grindelhof 30, 20146 Hamburg
   Ulrike Spree
Stand: