Statistische Verfahren der automatischen Indexierung,
Verfahren der automatischen Textzusammenfassung
26.05.2005
Aufgabe
1. Ankündigung des Klausurtermines:
Donnerstag, den 07.07.2005 von 9.00
bis 12.00 Uhr
Es ist erlaubt, eine Seite handschriftlicher Notizen mitzubringen.
2.
Besprechung der Übung 6
:
Kurze Vorstellung der ersten Aufgabe von Herr Wientapper:
Die
Berechnungen mit Formeln stehen im Verzeichnis.
Anmerkungen von Frau Prof. Dr. Spree: Es hat keinen Einfluss auf die
Vergleichbarkeit, ob man mit Logarithmus2 oder mit dem natürlichen
Logarithmus arbeitet. Sehr geringer Diskriminanzwert leistet keinen
Beitrag, die unterschiedlichen Dokumente einer Dokumentensammlung
inhaltlich voneinander zu unterscheiden.
In der Klausur wird die Komplexität der Berechnung sehr gering sein.
Vorstellung eines Flussdiagramms zur Erstellung eines Indexates einer
Dokumentensammlung von Frau Sapich:
Das Diagramm und Erläuterungen stehen im Verzeichnis.
Gefahr bei der Indexierung:
Wenn man nach dem Zugang neuer Dokumente das Vokabular und die
entsprechenden Gewichtungen verändert (z.B. Kybernetik - Robotik),
verändert sich auch die Präzision (Dokumente gehen bei der Recherche
verloren).
Mögliche Lösungen wären abstrakte Bezeichnungen und vorgegebene
Synonyme im Thesaurus.
3. Lerneinheit 7 - Automatische Textzusammenfassung :
Die unterschiedlichen inhaltserschließende Funktionen von Abstracts und Indexierung
wurden gemeinsam festgesetzt und verglichen: Funktion einer Indexierung
ist die Wiederauffindbarkeit und von einem Abstract -
Relevanzbestimmung (Tauglichkeit eines gefundenen Textes). Wenn man die
unterschiedliche Methoden der automatischen Textzusammenfassung, die Word bietet auswertet und vergleicht, kommt man zu dem
Schluss, dass bestimmte Signalwörter im Text, typographische
Auszeichnungen, die Gestalt des Text-Layouts und die Stellung von
Wörtern im Text, aber auch deren Häufigkeit für Verfahren der
automatischen Textzusammenfassung von Bedeutung sein müssen.