Grundlage für das automatische Indexieren bei lexikon- bzw. wörterbuchbasierten Verfahren ist die sogenannte "Vergleichswortliste" bzw. das Lexikon. Diese Verfahren können auch für Sprachen mit unregelmäßiger Morphologie Wortformen auf ihre Grundform reduzieren.
Das Programm vergleicht die Wortform aus dem Text Buchstabe für Buchstabe mit den Lemmata im Lexikon (Singular: Lemma = Lexikoneintragung) bis es eine Übereinstimmung findet. Es überprüft dann, ob die Wortform aus dem Text länger ist als das Lemma. Die eventuell verbleibenden Buchstaben am Ende der Wortform werden mit morphologischen Informationen in der identifizierten Lexikoneintragung verglichen. Das Programm entscheidet dann, ob die gefundene Lexikoneintragung ein gültiges Lemma für das Stichwort aus dem Text ist. Man nennt diesen Prozess deshalb auch Lemmatisierung.
Die morphologische Information für die Lemmata kann entweder in Form von Endungen vorliegen, die die Lexikoneintragung annehmen kann. Oder das Lexikon enthält alle möglichen Formen eines Wortes und eine Kennzeichnung der Grundform:
Beispiel:
1. Alternative: Lemmata und ihre Endungen | 2. Alternative: Vollformenlexikon, Grundform markiert | ||
Lemma | Endungen | Vollformen | |
gramm | -e -s |
gramm * gramme gramms |
|
grammatik | -en | grammatik * grammatiken |
Beachten Sie, wie das Programm mit einem Stichwort 'grammatiken' im Lexikon zunächst auf 'gramm' stößt. Da die Eintragung zu 'gramm' aber keine Wortform mit einer Endung '-atiken' findet, sucht es weiter und stößt - korrekt - auf 'grammatik'.
a) Selektion sinntragender Stichwörter
Beispiel:
Aus dem Satz "Was ist los mit den Russen?" geht nur "Russe" in den Index ein.
Dadurch bleiben Wörter ohne Bedeutung für das Information Retrieval unberücksichtigt. Die Relevanzquote wird besser; es entsteht also weniger Ballast.
b) Reduktion von Wortformen im Text auf ihre Grundform
Die Stichwörter aus dem Buchtitel "Die einstämmigen männlichen Personennamen des Griechischen, die aus Spitznamen hervorgegangen sind" gehen in folgender Form in den Index ein:
einstaemmig
maennlich
personenname
person
griechisch
spitzname
hervorgehen
Dadurch findet eine morphologische Terminologiekontrolle statt (Wortformenreduktion). Der Recall bei der Recherche ist höher, es gibt also weniger Informationsverlust.
c) Zerlegung von Komposita (Dekomposition)
Komposita werden in ihre sinnvollen Bestandteile zerlegt. Dadurch gelangen sowohl das Kompositum als auch seine Bestandteile in den Index. Der Kunde hat keinen Informationsverlust, wenn er mit einem Bestandteil eines Kompositums sucht; der Recall wird größer.
Beispiel: "mülldeponie" wird zerlegt in
mülldeponie
müll
deponie
Aber: "eselsbrücke" bleibt "eselsbrücke"
Negatives Beispiel: "prozesshandlungen" wird zerlegt in
prozesshandlungen
prozess
handlung
hand
lunge
d) Phrasenerkennung
Deskriptoren, die beim intellektuellen Indexieren vergeben werden, bestehen häufig aus mehreren Wörtern. Solche Indexate sind aussagekräftiger und informieren über den Kontext seiner Bestandteile, z.B. Deutsches Rotes Kreuz.
Beispiel:
"Deutsche Forschungsgemeinschaft" im Text wird als Phrase erkannt. Vergebene Indexate:
deutsche forschungsgemeinschaft
deutsch
forschung
forschen
gemeinschaft
forschungsgemeinschaft
Die Indexate sind eindeutiger; daraus folgt eine höhere Relevanz bei der Recherche und weniger Ballast.
e) Bindestrichergänzungen
Getilgte Kompositabestandteile bei 'Bindestrichwörtern' können ergänzt werden; daraus folgt mehr Recall beim Retrieval, also weniger Informationsverlust.
Beispiel: "Haus- und Hofwirtschaft" wird aufgelöst in
Hauswirtschaft
Hofwirtschaft
f) Wortsubstitution
Abkürzungen können durch ihre Auflösung ersetzt werden, Stichwörter durch ihre Synonyme oder durch ihre Übersetzung in eine andere Sprache.
Beispiel: Die Stichwörter aus dem Titel "Necessitas: e. Element d. mittelalterl. u. neuzeitl. Rechts; dargest. am Beisp. österr.Rechtsquellen" gehen in folgender Form in den Index ein:
necessitas
element
mittelalterlich
neuzeitlich
recht
darstellen
beispiel
oesterreichisch
rechtsquelle
recht
quelle
Die Substitutionsfunktion ermöglicht eine automatische Terminologiekontrolle; daraus folgt ein höherer Recall beim Retrieval, also weniger Informationsverlust.
[Quelle für diese Beispiele:
Gabriele Dreis: Formen des sachlichen Zugriffs - Probleme des automatischen Indexierens. In: Der Online-Publikumskatalog der Universitätsbibliothek Düsseldorf - methodische Erkenntnisse und Erfahrungen. Hrsg. Günter Gattermann. - Frankfurt a.M.: Klostermann, 1989. S. 84-99.]
Ist das Lexikon mehrsprachig und enthält es Begriffsrelationen (wie ein Thesaurus), so kann es außerdem
Jedes Wort mit all seinen möglichen morphologischen Formen, das gefunden werden soll, jedes Kompositum mit seinen Bestandteilen, alle Phrasen und thesaurusähnlichen semantischen Begriffsrelationen (Synonyme, Ober-, Unterbegriff etc.) sowie Übersetzungen müssen in diesem Wörterbuch enthalten sein. Der Aufbau eines Lexikons in einer neuen fachlichen Umgebung mit umfangreichem Wortmaterial kann sehr aufwändig sein. Der Pflegeaufwand durch laufende Ergänzungen ist ebenfalls hoch.
Stand: 1. März 2005