Thema:
Statistische Verfahren
Protokoll der Sitzung vom:
28.04.2005
Arbeitsauftrag:
Zunächst galt es, sich pro- und contra-Argumente zu regelbasierten bzw.
lexikonbasierten Verfahren zu überlegen und anschließend eindeutig Stellung zu
beziehen.
Initialaufgabe: "Überlegen Sie anhand der resultierenden
Indices, wie wirklich geeignete Deskriptoren für die 5 Dokumente automatisch
gewonnen werden könnten."
(Hinweis: Aus Zeitgründen wurde die Fragestellung
des Diskriminanzeffektes nicht mehr untersucht.)
Verlauf unserer Diskussion:
Regelbasierte Verfahren (zu LE 05)
+ geringe Lizenzkosten
+
geringer Pflegebedarf
+ keine zusätzliche Vernetzung (zwischen einzelnen
Worten)
+ keine ungewollten Indexate
+ Abkürzungen im Index
- erkennt
keine Eigennamen
- kann keine Komposita zerlegen
Lexikonbasierte Verfahren (zu LE 05)
+ bessere Qualität: erkennt
Synonye und Eigennamen, zerlegt Komposita
+ höherer Recall
+ erhält
Arbeitsplätze (Personen die Wörterbuch pflegen müssen)
- hohe
Anschaffungskosten (für mittelständiges Unternehmen WissOrg zu teuer)
- hoher
Pflegebedarf
Wie erkennt man signifikante Deskriptoren? (zu LE 06)
1) über die
Auswertung der Textstruktur: einzelne Wörter, Metadaten (Titel, Autor)
2)
über die
Worthäufigkeit3) über die
Termfrequenz Es entstand das Problem der
Subjektivität bei der Festlegung von Schwellenwerten für relevante Deskriptoren: jeder Mensch kann seine Wertmaßstäbe anders setzen und bspw.
0,025 als sehr gute oder auch als weniger gute Termfrequenz empfinden.
Korrigierte Arbeitsergebnisse:
Abstimmung über regel-/ lexikonbasiertes Verfahren
5 Studierende
stimmen für das regelbasierte Verfahren und 5 Studierende für das
lexikonbasierte Verfahren. Die Kombination beider Verfahrensarten sei ideal bzw.
sollte man auf eine lexikonbasierte Weiterentwicklung warten. Bis es soweit ist,
wird eine intellektuelle Erschließung durch Personen befürwortet.
Falls man
sich für das regelbasierte Verfahren entscheidet, sollte man das "Warum?" gut
begründen können, denn die Qualität (der Recall) ist in diesem Fall eindeutig
schlechter.
Um besser handhabbare Zahlenwerte zu erhalten, wurde die Formel zur
Berechnung der Termfrequenz durch Algorithmierung verfeinert.
Weitere Lerninhalte siehe LE 06.
Neu gelernte Inhalte:
Frau Spree fügte hinzu, dass man im bibliothekarischen Bereich zum
lexikonbas. Verfahren tendiert, da gewünschte Daten nur auf die relevanten
bibliografischen Angaben zurückgehen und somit Ballast vermieden werden kann. Im
Bereich der Pressedokumentation bevorzugt man das regelbas. Verfahren.
Das wichtigste Fazit aus der Sitzung:
- Deskriptoren sind sehr wichtig für die Erschließung von Texten und sollten
deshalb sowohl den Inhalt eines einzelnen Dokumentes eindeutig wiedergeben, als auch unterschiedliche
Dokumente einer Dokumentensammlung inhaltlich voneinander trennen.
- Gute Deskriptoren können mit Hilfe der Ermittlung von Worthäufigkeit und
Termfrequenz aus einem Dokument herauskristallisiert werden.
- Liegt eine Dokumentensammlung vor, sollte man die IDF (inverse
Dokumentenhäufigkeit) ermitteln und diese anschließend mit der Termfrequenz in
Verbindung bringen.
Datum:28.04.2005
Protokollant:
Konstanze Richter, leicht korrigiert Ulrike Spree