Thema:

Lexikonbasierte Verfahren (LE 05)

Protokoll der Sitzung vom:

28.04.2005

Arbeitsauftrag:

Die Aufgabe war, anhand von drei bibliographischen Datensätzen den Indexierungsvorgang mit Hilfe einer "Vergleichsliste" bzw. eines Lexikons zu analysieren.

Verlauf unserer Diskussion:

Bei der lexikonbasierten Indexierung gleicht das Indexierungsprogramm (in unserem Fall IDX) die im Dokument vorkommenden Wörter mit einem vorgegebenen Wörterbuch ab. Um das Dokument von unnötigem Ballast zu befreien, werden Stichwörter aus Titel und Zusatz zum Haupttitel mittels einer Stoppwortliste entfernt. Alle übrigen Stichwörter werden nun durch die jeweiligen Eintragungen im Wörterbuch verglichen, erhalten, wenn sie vorkommen, eine Vorzugsbezeichnung mit allen zugehörigen Flexionsformen und werden auf ihre Grundform zurückgeführt.

Im Seminar wurden drei Beispiele herausgegriffen, bei deren Indexierung Besonderheiten auftraten.

Beispiel 1:
Unter Kategorie 990 im dritten Datensatz taucht das Wort "Zielbildung" auf, dessen Ursprung sich nur dadurch erklären lässt, dass die Kategorien 510 und 520, in denen das Wort "Zielbildung" vorkommt, mit ausgewertet wurden. Das Indexierungsprogramm nimmt dementsprechend "Zielbildung" mit in die Schlagwortliste auf, obgleich im Titel nur das Wort "Zielsetzung" auftaucht.

Beispiel 2:
Im ersten Datensatz geht es um die Klavierwerke Johann Sebastian Bachs. In der Kategorie 990 wird den Schlagwörtern, die auf Musik (Klavier, Klavierwerk etc.) sowie auf die Einzelteile des Künstlernamens (Johann, Sebastian, Bach) verweisen, auch eine Bedeutung von "Bach" im Sinne von Gewässer, nämlich "Fließgewässer" hinzugefügt. Im Seminar sollte von den Studentinnen beantwortet werden, ob die Verwechslung, die durch diesen Indexierungsvorgang hervorgerufen wird, vermieden werden kann.

Antwort: Es ist nicht auszuschließen, dass "Bach" auch als "Fließgewässer" aufgenommen wird, solange es sich um ein Einzelwort handelt. Anders verhielte es sich beim Einsatz einer Eigennamenerkennung, die in der Lage wäre, aus dem Kontext der Titelstichwörter, die richtige Bedeutung zu erkennen.

In diesem Zusammenhang wurde ein Negativbeispiel zur Erstellung einer Lexikoneintragung für "Bach" (Aufgabe 3) gezeigt:

1. Fließgewässer, kleiner Flusslauf, der meist in einen großen Fluss oder See mündet.
2. Carl Philipp Emanuel geb. 23.09.1125 in Hamburg
...

Richtig wäre gewesen, Einzelbegriffe aufzulisten, die vom Indexierungsprogramm erfasst werden können.

[Vorzugsbezeichnung]
Bach

[Wortformen]
Bache (*)
Baches
Bachs
Bäche
...

Das Negativbeispiel ist zu komplex und nicht erfassbar für das Programm.

Beispiel 3:

Auch die an sich richtigen, oben gezeigten, Lexikoneinträge zu "Bach" können zu Missverständnissen führen, wie z.B. das Wort "Bache" (*). Aus der Wortform von "Bach" wird das Homonym für das weibliche Wildschwein.

Korrigierte Arbeitsergebnisse:

Zum Abschluss der lexikonbasierten Indexierung wurden Vor- und Nachteile gesammelt. Die Studentinnen sollten begründen, ob sie eine lexikonbasierte oder eine regelbasierte Indexierung bevorzugen bzw. Alternativen nennen können. Elf von zwölf Studentinnen entschieden sich für die lexikonbasierte Indexierung mit den folgenden Begründungen:

  • kompensiert Schwächen der regelbasierten Systeme (Fugenmorphem, Komposita, Synonyme, Abkürzungen)
  • größere Korrektheit
  • Aufwand lohnt sich (besserer Recall / höhere Qualität; Phrasenerkennung; Ober- und Unterbegriffe; Abgleich mit Normdateien; Steigerung der Wettbewerbsfähigkeit)

Die Stimme für das regelbasierte Indexierungsverfahren konterte, dass diese Art von Indexierung schneller, kostensparender und mit geringerem Pflegeaufwand verbunden sei.

Zusammen mit der Dozentin kamen die Studentinnen zu dem Resultat, dass sich aufgrund des Qualitäts- und Wettbewerbsgedankens die lexikonbasierte Indexierung auf längere Zeit gesehen mehr rentiere, da der bereits vorhandene Thesaurus durch die Einführung einer regelbasierten Indexierung überflüssig werde und somit Kapital verloren gehe. Es sei zu überlegen, den Thesaurus der Firma WissOrg durch Überarbeitung zu verbessern und in die lexikonbasierte Indexierung einzubinden.

Neu gelernte Inhalte:

Die Dozentin zeigte anhand der erarbeiteten Ergebnisse auf, wie der richtige Aufbau eines Wörterbuches aussieht, um eine optimale Indexierung eines Dokuments zu erreichen.

  1. Aufbau eines Rechtsschreib-Wörterbuches als Positivliste, in der alle Wörter in Grund- oder Vollform vorkommen
  2. Aufbau eines Relationen-Wörterbuches (hat Priorität vor der Zerlegung, so dass z.B. Wörter wie "Kindergarten" nicht in "Kinder" und "Garten" zerlegt werden)
  3. Festlegen einer Erkennungsstrategie, in der Wörter erkannt werden und in ihre Grundform gebracht werden (z.B. Zeichenketten erkennen und Bindestriche ignorieren)
  4. Festlegung eines Verfahrens zur Identifizierung von Komposita (bei Wörtern wie Glücksautomaten wird durch Rückwärtslesen des Wortes durch das Indexierungsprogramms vermieden, dass das Wort in "Glück", "Sau" und "Tomaten" zerlegt wird)

Das wichtigste Fazit aus der Sitzung:

Lexikonbasierte Verfahren bedürfen regelmäßiger Pflege und Wartung des Lexikons / Wörterbuches, auch muss ein gutes Indexierungsprogramm vorhanden sein, um die abzugleichenden Wörter richtig zuzuordnen. Es ist mit diesen Voraussetzungen jedoch ein zuverlässiges Indexierungsverfahren, das vor allem durch seine Qualität besticht, die erforderlich ist, um eine gute und saubere Bearbeitung von Dokumenten zu garantieren.



Datum:28.04.2005
Protokollant:Korinna Meschke

Protokoll