In Lerneinheit 4 haben wir gesehen, dass regelbasierte Verfahren bei der Anwendung auf morphologisch komplexe Sprachen wie das Deutsche, d. h. Sprachen mit vielen Ausnahmen in der Wortbildung, keine guten Ergebnisse liefern. Bereits eine regelbasierte Umwandlung vom Plural in den Singular ist im Deutschen schwierig, da viele deutsche Wörter im Plural ihren Wortstamm ändern (Gans, Gänse).

Für Sprachen mit einer großen Vielfalt bei der Wortbildung werden Verfahren entwickelt, die alle Zeichenketten, die für den Index berücksichtigt werden sollen und auf die Grundform oder Stammform gebracht werden sollen, tatsächlich kennen. Zur Identifizierung der Zeichenketten/Wörter setzt man umfangreiche Wortlisten (Indexierungs-Lexika oder Indexierungs-Wörterbücher) ein. Man unterscheidet Vollformenlexika, die Einträge für alle Wortformen und die dazu gehörigen Grundformen enthalten und Grundformenlexika, die nur Einträge für die Grundformen und deren Flexionsverhalten kennen. Der Aufwand für die Erstellung der Wörterbücher ist hoch. Mittlerweile stehen aber über das Internet große Wörterbücher zur Verfügung, die nachgenutzt werden dürfen. Der Softwareanbieter canoo stellt zu Werbezwecken Testanwendungnen mit frei verfügbaren Wörterbüchern bereit. Schauen Sie sich den Eintrag "Kulturwissenschaft" an.

Lemmatisierung
Möglichkeiten lexikonbasierter Verfahren
Der Aufwand

1. Lemmatisierung

Grundlage für das automatische Indexieren bei lexikon- bzw. wörterbuchbasierten Verfahren ist die sogenannte "Vergleichswortliste" bzw. das Lexikon. Diese Verfahren können auch Wortformen aus Sprachen mit unregelmäßiger Morphologie auf ihre Grundform reduzieren.

Das Programm vergleicht die Wortform aus dem Text Buchstabe für Buchstabe mit den Lemmata im Lexikon (Singular: Lemma = Lexikoneintragung) bis es eine Übereinstimmung findet. Es überprüft dann, ob die Wortform aus dem Text länger ist als das Lemma. Die eventuell verbleibenden Buchstaben am Ende der Wortform werden mit morphologischen Informationen in der identifizierten Lexikoneintragung verglichen. Das Programm entscheidet dann, ob die gefundene Lexikoneintragung ein gültiges Lemma für das Stichwort aus dem Text ist. Man nennt diesen Prozess deshalb auch Lemmatisierung.

Die morphologische Information für die Lemmata kann

in Form von Endungen vorliegen, die die Lexikoneintragung annehmen kann,
oder das Lexikon enthält alle möglichen Formen eines Wortes und eine Kennzeichnung der Grundform

Beispiel:

1. Alternative: Lemmata und ihre Endungen		2. Alternative: Vollformenlexikon, Grundform markiert
Lemma	Endungen	Vollformen
gramm	-e -s	gramm * gramme gramms
grammatik	-en	grammatik * grammatiken

Beachten Sie, wie das Programm mit einem Stichwort 'grammatiken' im Lexikon zunächst auf 'gramm' stößt. Da die Eintragung zu 'gramm' aber keine Wortform mit einer Endung '-atiken' findet, sucht es weiter und stößt - korrekt - auf 'grammatik'.

2. Möglichkeiten lexikonbasierter Verfahren

a) Selektion sinntragender Stichwörter

Beispiel:

Aus dem Satz "Was ist los mit den Russen?" geht nur "Russe" in den Index ein.

Dadurch bleiben Wörter ohne Bedeutung für die Indexierung unberücksichtigt. Die Relevanzquote wird besser; es entsteht also weniger Ballast.

b) Reduktion von Wortformen im Text auf ihre Grundform

Die Stichwörter aus dem Buchtitel "Die einstämmigen männlichen Personennamen des Griechischen, die aus Spitznamen hervorgegangen sind" gehen in folgender Form in den Index ein:

einstaemmig
maennlich
personenname
person
griechisch
spitzname
hervorgehen

Dadurch findet eine morphologische Terminologiekontrolle statt (Wortformenreduktion). Der Recall bei der Recherche ist höher, es gibt also weniger Informationsverlust.

c) Zerlegung von Komposita (Dekomposition)

Komposita werden in ihre sinnvollen Bestandteile zerlegt. Dadurch gelangen sowohl das Kompositum als auch seine Bestandteile in den Index. Der Kunde hat keinen Informationsverlust, wenn er mit einem Bestandteil eines Kompositums sucht; der Recall wird größer.

Beispiel: "mülldeponie" wird zerlegt in

mülldeponie
müll
deponie

Aber: "eselsbrücke" bleibt "eselsbrücke"

d) Phrasenerkennung

Deskriptoren, die beim intellektuellen Indexieren vergeben werden, bestehen häufig aus mehreren Wörtern. Solche Indexate sind aussagekräftiger und informieren über den Kontext seiner Bestandteile, z.B. Deutsches Rotes Kreuz.

Beispiel:

"Deutsche Forschungsgemeinschaft" im Text wird als Phrase erkannt. Vergebene Indexate:

deutsche forschungsgemeinschaft
deutsch
forschung
forschen
gemeinschaft
forschungsgemeinschaft

Die Indexate sind eindeutiger; daraus folgt eine höhere Relevanz bei der Recherche und weniger Ballast.

e) Bindestrichergänzungen

Getilgte Kompositabestandteile bei 'Bindestrichwörtern' können ergänzt werden; daraus folgt mehr Recall beim Retrieval, also weniger Informationsverlust.

Beispiel: "Haus- und Hofwirtschaft" wird aufgelöst in

Hauswirtschaft
Hofwirtschaft

f) Wortsubstitution

Abkürzungen können durch ihre Auflösung ersetzt werden, Stichwörter durch ihre Synonyme oder durch ihre Übersetzung in eine andere Sprache.

Beispiel: Die Stichwörter aus dem Titel "Necessitas: e. Element d. mittelalterl. u. neuzeitl. Rechts; dargest. am Beisp. österr.Rechtsquellen" gehen in folgender Form in den Index ein:

necessitas
element
mittelalterlich
neuzeitlich
recht
darstellen
beispiel
oesterreichisch
rechtsquelle
recht
quelle

Die Substitutionsfunktion ermöglicht eine automatische Terminologiekontrolle; daraus folgt ein höherer Recall beim Retrieval, also weniger Informationsverlust.

[Quelle für diese Beispiele:
Gabriele Dreis: Formen des sachlichen Zugriffs - Probleme des automatischen Indexierens. In: Der Online-Publikumskatalog der Universitätsbibliothek Düsseldorf - methodische Erkenntnisse und Erfahrungen. Hrsg. Günter Gattermann. - Frankfurt a.M.: Klostermann, 1989. S. 84-99.]

Ist das Lexikon mehrsprachig und enthält es Begriffsrelationen (wie ein Thesaurus), so kann es außerdem

Vorzugsbenennungen verwenden bzw.
Synonyme zuordnen
verwandte sowie Unter- und Oberbegriffe finden und
fremdsprachige Stichwörter übersetzen

3. Aufwand

Jedes Wort mit all seinen möglichen morphologischen Formen, das gefunden werden soll, jedes Kompositum mit seinen Bestandteilen, alle Phrasen und thesaurusähnlichen semantischen Begriffsrelationen, (Synonyme, Ober-, Unterbegriff etc.) sowie Übersetzungen müssen in diesem Wörterbuch enthalten sein. Zu jedem Wort müssen Angaben zur Wortart (Nomen, Verb, Adjektiv) gemacht werden. Der Aufbau eines Lexikons in einer neuen fachlichen Umgebung mit umfangreichem Wortmaterial kann sehr aufwändig sein. Der Pflegeaufwand durch laufende Ergänzungen ist ebenfalls hoch. In der verlinkten Grafik sehen Sie ein Beispiel, wie die Indexierungssoftware lingo einen Rohtext bearbeitet.

Verarbeitung eines Textes in der Software lingo.

Sie können die Software selber ausprobieren. Was macht die Software aus dem Satz "Heute gehe ins Violinkonzert in der Konzerthalle in Hamburg." Probieren Sie auch "Schokoladenkuchen" und "Himbeerkuchen" aus.

Stand: 03. Mai 2018

< Seite drucken >
< Zum Seitenanfang >

STEP 1 - Einführung | STEP 2 - Initialaufgabe | STEP 3 - Lektüre | STEP 4 - Übung 1 | STEP 5 - Übung 2

1. Lemmatisierung

2. Möglichkeiten lexikonbasierter Verfahren

3. Aufwand

STEP 1

STEP 2

STEP 4

STEP 5

LE 05: Lexikonbasierte Verfahren

LERNEINHEITEN (LE)

ZUSAMMENSCHAU