Schritt 1 |
Schritt 2 |
Schritt 3 |
Schritt 4 |
Schritt 5 |
Schritt 6 |
Schritt 7 |
|
|
|
|
|
|
|||
Vortrag: S. 3 |
Grundlage für das automatische Indexieren ist bei lexikon- bzw. wörterbuchbasierten Verfahren die sogenannte "Vergleichswortliste" bzw. das Lexikon. Diese Verfahren können auch für Sprachen mit unregelmäßiger Morphologie Wortformen auf ihre Grundform reduzieren. Bei diesem Prozess werden von einer Wortform solange Buchstaben hinten (u.U. auch vorne) abgetrennt, bis ein Lemma (Plural: Lemmata) in dem Lexikon aufgefunden und identifiziert werden kann. Man nennt diesen Prozess deshalb auch Lemmatisierung.
Lexikonbasierte Verfahren können
Ist das Lexikon mehrsprachig und enthält es Begriffsrelationen (wie ein Thesaurus), so kann es auch
Jedes Indexat, das vergeben wird, jedes Kompositum mit seinen Bestandteilen, alle Phrasen und thesaurusähnlichen semantischen Begriffsrelationen (Synonyme, Ober-, Unterbegriff etc.) sowie Übersetzungen müssen in diesem Wörterbuch enthalten sein. Der Aufbau eines Lexikons in einer neuen fachlichen Umgebung mit umfangreichem Wortmaterial kann sehr aufwendig sein. Der Pflegeaufwand durch laufende Ergänzungen ist ebenfalls hoch.
Ein solches Indexierungssystem ist IDX.
IDX wurde an der UB Düsseldorf Projekt MILOS angewendet (Maschinelle Indexierung zur erweiterten Literaturerschließung in Online-Systemen). Dort wurde es mit gutem Erfolg zur Indexierung von Titeldaten eines OPACs eingesetzt. Heute wird IDX von der Firma Softex GmbH vertrieben. So beschreibt Softex das Produkt, bitte lesen Sie:
http://www.dicits.com/softex/: Hier: 'Übersicht' > IDX > Freitextindexierung'. |
Tipps für kritisches Lesen: Die Produktbeschreibung nennt 10 Eigenschaften von IDX. Wie wird die Firma Softex ihren Kunden erklären, welche Vorteile sie von diesen Features haben?
zurück | weiter: Aufgabe 1 |
Stand: 20. August 2003