1. Was ist Stemming?
  2. Overstemming + Understemming

1. Was ist Stemming?

Im letzten Meeting haben Sie eine Einführung in die Morphologie erhalten. Heute erfahren Sie, wie dieses Wissen in einfachen computerlinguistischen Verfahren der automatischen Indexierung angewendet wird.

Ein Problem der automatischen Indexierung ist die Wortformenvielfalt in Texten; viele Formen stehen für ein und denselben Begriff. Hierdurch verringert sich der Recall (Wörter mit ähnlichem Wortstamm (Kind - Kindes - Kinder) werden nicht gefunden) und es ensteht unnötiger Ballast im Index. Die intellektuelle Inhaltserschließung löst das Problem der Wortformenvielfalt durch Vereinbarungen: Z.B. einigt man sich auf die Ansetzung der Schlageworte im Nominativ Singular (Kind) und verwendet als Vorzugsbenennung immer diese morphologische Form.

Die automatische Indexierung löst dieses Problem durch Stemming, bzw. Wortformenreduktion. Eine Software, die Stemming durchführt, erzeugt zum Beispiel aus den verschiedenen Wortformen "Spiel", "spielerisch", "Spieler", "gespielt" im Index oder in einer gestemmten Suchanfrage "spiel".

Stemmingverfahren, die auf linguistischem Wissen basieren, trennen Suffixe (Flexive evtl. auch Derivative) ab. Durch den Einsatz von Stemmern vermindert sich die Datenmenge in einem Index um bis zu 50 %.


Stemming kann Wörter aus dem Text entweder bis auf die Grundform (Weak Stemming) oder bis auf die Stammform (Strong Stemming) reduzieren.

Beispiel: Es war windiges Wetter.
Weak Stemming Strong Stemming
Durch
Entfernung
des Flexivs es
entsteht die
Grundform
windig.
Durch das
Entfernen des
Derivativs ig
entsteht die
Stammform
wind.

2. Overstemming + Understemming

Beim Stemming kann es zu zwei unerwünschten Ergebnissen kommen:

Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden dadurch auf ein und dieselbe Form reduziert und somit unerwünschterweise gleichgesetzt. Unten: "Kommunismus" wird mit "Kommunikation" und "kommunizieren" gleichgesetzt.

kommunismus kommun
kommunikation
kommunizieren
Buchenen buch
Bucheses

Understemming: Eine zu kurze Zeichenkette (oder kein Zeichen) wird abgeschnitten; unterschiedliche Wortformen mit ein und derselben Grund- oder Stammform werden unerwünschterweise wie unterschiedliche Wörter behandelt. Unten: "Kommunikation" und "kommunizieren" werden als Wörter verarbeitet, die nichts miteinander zu tun haben.

kommunikationtion kommunika
kommunizierenieren kommuniz
gehenen geh
gehtt geht

Stand: 30. April 2018

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 4

Lektüre 2

STEP 5

Übung
Step 1
Step 2
Step 3
Step 4
Step 5
Lektüre 1: Stemming (Einführung)

LE 04: Regelbasierte linguistische Verfahren