Thema:

Statistische Verfahren

Protokoll der Sitzung vom:

28.04.2005

Arbeitsauftrag:

Zunächst galt es, sich pro- und contra-Argumente zu regelbasierten bzw. lexikonbasierten Verfahren zu überlegen und anschließend eindeutig Stellung zu beziehen.

Initialaufgabe: "Überlegen Sie anhand der resultierenden Indices, wie wirklich geeignete Deskriptoren für die 5 Dokumente automatisch gewonnen werden könnten."
(Hinweis: Aus Zeitgründen wurde die Fragestellung des Diskriminanzeffektes nicht mehr untersucht.)

Verlauf unserer Diskussion:

Regelbasierte Verfahren (zu LE 05)


+ geringe Lizenzkosten
+ geringer Pflegebedarf
+ keine zusätzliche Vernetzung (zwischen einzelnen Worten)
+ keine ungewollten Indexate
+ Abkürzungen im Index
- erkennt keine Eigennamen
- kann keine Komposita zerlegen

Lexikonbasierte Verfahren (zu LE 05)


+ bessere Qualität: erkennt Synonye und Eigennamen, zerlegt Komposita
+ höherer Recall
+ erhält Arbeitsplätze (Personen die Wörterbuch pflegen müssen)
- hohe Anschaffungskosten (für mittelständiges Unternehmen WissOrg zu teuer)
- hoher Pflegebedarf

Wie erkennt man signifikante Deskriptoren? (zu LE 06)


1) über die Auswertung der Textstruktur: einzelne Wörter, Metadaten (Titel, Autor)
2) über die Worthäufigkeit
3) über die Termfrequenz

Es entstand das Problem der Subjektivität bei der Festlegung von Schwellenwerten für relevante Deskriptoren: jeder Mensch kann seine Wertmaßstäbe anders setzen und bspw. 0,025 als sehr gute oder auch als weniger gute Termfrequenz empfinden.

Korrigierte Arbeitsergebnisse:

Abstimmung über regel-/ lexikonbasiertes Verfahren


5 Studierende stimmen für das regelbasierte Verfahren und 5 Studierende für das lexikonbasierte Verfahren. Die Kombination beider Verfahrensarten sei ideal bzw. sollte man auf eine lexikonbasierte Weiterentwicklung warten. Bis es soweit ist, wird eine intellektuelle Erschließung durch Personen befürwortet.
Falls man sich für das regelbasierte Verfahren entscheidet, sollte man das "Warum?" gut begründen können, denn die Qualität (der Recall) ist in diesem Fall eindeutig schlechter.

Um besser handhabbare Zahlenwerte zu erhalten, wurde die Formel zur Berechnung der Termfrequenz durch Algorithmierung verfeinert.
Weitere Lerninhalte siehe LE 06.

Neu gelernte Inhalte:

Frau Spree fügte hinzu, dass man im bibliothekarischen Bereich zum lexikonbas. Verfahren tendiert, da gewünschte Daten nur auf die relevanten bibliografischen Angaben zurückgehen und somit Ballast vermieden werden kann. Im Bereich der Pressedokumentation bevorzugt man das regelbas. Verfahren.

Das wichtigste Fazit aus der Sitzung:

  • Deskriptoren sind sehr wichtig für die Erschließung von Texten und sollten deshalb sowohl den Inhalt eines einzelnen Dokumentes eindeutig wiedergeben, als auch unterschiedliche Dokumente einer Dokumentensammlung inhaltlich voneinander trennen.
  • Gute Deskriptoren können mit Hilfe der Ermittlung von Worthäufigkeit und Termfrequenz aus einem Dokument herauskristallisiert werden.
  • Liegt eine Dokumentensammlung vor, sollte man die IDF (inverse Dokumentenhäufigkeit) ermitteln und diese anschließend mit der Termfrequenz in Verbindung bringen.



Datum:28.04.2005
Protokollant:Konstanze Richter, leicht korrigiert Ulrike Spree

Protokoll