Schritt 1

Schritt 2

Schritt 3

Schritt 4

Schritt 5

Schritt 6

Schritt 7

 

Sie sind hier

 

 

 

 

Einführung

Vortrag: S. 1

Vortrag: S. 2

Vortrag: S. 3

Aufgabe 1

Aufgabe 2

Aufgabe 3



WissOrg-Meeting

Linguistischen Verfahren der automatischen Inhaltserschließung

Referent: Rainer Fuchs (Abt. Doku)

Inhalt:

Was ist Stemming?S. 1
Probleme: Overstemming + UnderstemmingS. 1
Regelbasiertes StemmingS. 2
Lexikonbasierte VerfahrenS. 3

Was ist Stemming?

Im letzten Meeting haben Sie eine Einführung in die Morphologie erhalten. Heute erfahren Sie, wie dieses Wissen in einfachen computerlinguistischen Verfahren der automatischen Inhaltserschließung angewendet wird.

Ein Problem der automatischen Indexierung ist die Wortformenvielfalt in Texten, z.B.:

Mutter - Mutters - Mütter - Müttern

Die intellektuelle Inhaltserschließung löst das Problem der Wortformenvielfalt durch Vereinbarungen: Z.B. einigt man sich auf den Nominativ Singular und verwendet als Vorzugsbenennung immer diese morphologische Form.

Die automatische Inhaltserschließung löst dieses Problem durch Stemming, bzw. Wortformenreduktion. Eine Software, die Stemming durchführt, erzeugt zum Beispiel aus den verschiedenen Wortformen "Spiel", "spielerisch","Spieler", "gespielt" im Index oder in einer gestemmten Suchanfrage "spiel".

Stemmingverfahren, die auf linguistischem Wissen basieren, trennen Suffixe (Flexive evtl. auch Derivative) ab. Durch den Einsatz von Stemmern vermindert sich die Datenmenge in einem Index um ca. 50 %, weil Redundanzen wie im Beispiel SPIEL vermieden werden.

Stemming kann Wörter aus dem Text entweder bis auf die Grundform (weak stemming) oder bis auf die Stammform (strong stemming) reduzieren.

Beispiel: Es war windiges Wetter.

Weak StemmingStrong Stemming

Durch Entfernung des Flexiv es entsteht die Grundform windig.

Durch das Entfernen des Derivativ ig entsteht die Stammform wind.

Quelle: Knorz, Gerhard: Grundlagen und Möglichkeiten der automatischen Inhaltserschließung


Seitenanfang


Probleme: Overstemming + Understemming

Beim Stemming kann es zu zwei unerwünschten Ergebnissen kommen:

Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden dadurch auf ein und dieselbe Form reduziert und somit unerwünschterweise gleichgesetzt. Unten: "Kommunismus" wird mit "Kommunikation" und "kommunizieren" gleichgesetzt.

kommunismus

kommun

kommunikation

kommunizieren

Understemming: Eine zu kurze Zeichenkette wird abgeschnitten; unterschiedliche Wortformen mit ein und der selben Grund- oder Stammform werden unerwünschterweise wie unterschiedliche Wörter behandelt. Unten: "Kommunikation" und "kommunizieren" werden als Wörter verarbeitet, die nichts miteinander zu tun haben.

kommunismus

kommun

kommunikation

kommunika

kommunizieren

kommuniz


Seitenanfang


zurück weiter: Vortrag: S. 2

Stand: 15. Juli 2003