Lexikonbasierte Verfahren (LE 05)
28.04.2005
Die Aufgabe war, anhand von drei bibliographischen Datensätzen den Indexierungsvorgang mit Hilfe einer "Vergleichsliste" bzw. eines Lexikons zu analysieren.
Bei der lexikonbasierten Indexierung gleicht das Indexierungsprogramm (in unserem Fall IDX) die im Dokument vorkommenden Wörter mit einem vorgegebenen Wörterbuch ab. Um das Dokument von unnötigem Ballast zu befreien, werden Stichwörter aus Titel und Zusatz zum Haupttitel mittels einer Stoppwortliste entfernt. Alle übrigen Stichwörter werden nun durch die jeweiligen Eintragungen im Wörterbuch verglichen, erhalten, wenn sie vorkommen, eine Vorzugsbezeichnung mit allen zugehörigen Flexionsformen und werden auf ihre Grundform zurückgeführt.
Im Seminar wurden drei Beispiele herausgegriffen, bei deren Indexierung Besonderheiten auftraten.
Beispiel 1:
Unter Kategorie 990 im dritten Datensatz taucht das Wort "Zielbildung" auf, dessen Ursprung sich nur dadurch erklären lässt, dass die Kategorien 510 und 520, in denen das Wort "Zielbildung" vorkommt, mit ausgewertet wurden. Das Indexierungsprogramm nimmt dementsprechend "Zielbildung" mit in die Schlagwortliste auf, obgleich im Titel nur das Wort "Zielsetzung" auftaucht.
Beispiel 2:
Im ersten Datensatz geht es um die Klavierwerke Johann Sebastian Bachs. In der Kategorie 990 wird den Schlagwörtern, die auf Musik (Klavier, Klavierwerk etc.) sowie auf die Einzelteile des Künstlernamens (Johann, Sebastian, Bach) verweisen, auch eine Bedeutung von "Bach" im Sinne von Gewässer, nämlich "Fließgewässer" hinzugefügt. Im Seminar sollte von den Studentinnen beantwortet werden, ob die Verwechslung, die durch diesen Indexierungsvorgang hervorgerufen wird, vermieden werden kann.
Antwort: Es ist nicht auszuschließen, dass "Bach" auch als "Fließgewässer" aufgenommen wird, solange es sich um ein Einzelwort handelt. Anders verhielte es sich beim Einsatz einer Eigennamenerkennung, die in der Lage wäre, aus dem Kontext der Titelstichwörter, die richtige Bedeutung zu erkennen.
In diesem Zusammenhang wurde ein Negativbeispiel zur Erstellung einer Lexikoneintragung für "Bach" (Aufgabe 3) gezeigt:
1. Fließgewässer, kleiner Flusslauf, der meist in einen großen Fluss oder See mündet.Richtig wäre gewesen, Einzelbegriffe aufzulisten, die vom Indexierungsprogramm erfasst werden können.
[Vorzugsbezeichnung]Das Negativbeispiel ist zu komplex und nicht erfassbar für das Programm.
Beispiel 3:Auch die an sich richtigen, oben gezeigten, Lexikoneinträge zu "Bach" können zu Missverständnissen führen, wie z.B. das Wort "Bache" (*). Aus der Wortform von "Bach" wird das Homonym für das weibliche Wildschwein.
Zum Abschluss der lexikonbasierten Indexierung wurden Vor- und Nachteile gesammelt. Die Studentinnen sollten begründen, ob sie eine lexikonbasierte oder eine regelbasierte Indexierung bevorzugen bzw. Alternativen nennen können. Elf von zwölf Studentinnen entschieden sich für die lexikonbasierte Indexierung mit den folgenden Begründungen:
Die Stimme für das regelbasierte Indexierungsverfahren konterte, dass diese Art von Indexierung schneller, kostensparender und mit geringerem Pflegeaufwand verbunden sei.
Zusammen mit der Dozentin kamen die Studentinnen zu dem Resultat, dass sich aufgrund des Qualitäts- und Wettbewerbsgedankens die lexikonbasierte Indexierung auf längere Zeit gesehen mehr rentiere, da der bereits vorhandene Thesaurus durch die Einführung einer regelbasierten Indexierung überflüssig werde und somit Kapital verloren gehe. Es sei zu überlegen, den Thesaurus der Firma WissOrg durch Überarbeitung zu verbessern und in die lexikonbasierte Indexierung einzubinden.
Die Dozentin zeigte anhand der erarbeiteten Ergebnisse auf, wie der richtige Aufbau eines Wörterbuches aussieht, um eine optimale Indexierung eines Dokuments zu erreichen.
Lexikonbasierte Verfahren bedürfen regelmäßiger Pflege und Wartung des Lexikons / Wörterbuches, auch muss ein gutes Indexierungsprogramm vorhanden sein, um die abzugleichenden Wörter richtig zuzuordnen. Es ist mit diesen Voraussetzungen jedoch ein zuverlässiges Indexierungsverfahren, das vor allem durch seine Qualität besticht, die erforderlich ist, um eine gute und saubere Bearbeitung von Dokumenten zu garantieren.