Statistische Verfahren der Inhaltserschließung (Besprechung der Übung), Verfahren und Konzepte der automatischen Textzusammenfassung
19.05.2005
(a) Klärung einiger Formalien :
Festlegung des Klausurtermines : Donnerstag, den 07.07.2005 von 9.00
bis 12.00 Uhr !
Zusatztermin entfällt !
(b) Besprechung der Übung :
Vorstellung des Flußdiagramms von Kastendieck mitsamt einer
ausführlichen Erläuterung :
Der in Gestalt eines Flußdiagramms vorgestellte Algorithmus zur
Erstellung eines dokumentenweise gewichteten Indexates einer
vorliegenden Dokumentensammlung basiert auf einer konventionellen
wörterbuchbasierten Indexierung mit Vorzugsbenennungen. In Verbindung
mit einer gesonderten Behandlung von Mehrwortbegriffen und Teilwörtern
wird eine Deskriptorenliste einer nachfolgenden Gewichtung zugeführt,
die begrifflich und terminologisch kontrolliert den jeweiligen Inhalt erschließt und sich zugleich in der Art
einer Volltextinvertierung an den Benennungen des jeweiligen Textes
orientiert : von einer weitergehenden Indexierung von aus Teilwörtern
bestehenden Einfachdeskriptoren vermöge einer Dekomposition wird
abgesehen, äquivalente Benennungen werden nicht indexiert.
Der schlußendliche Index führt dokumentenweise die jeweiligen
Deskriptoren nach Termgewicht absteigend sortiert der
Schwellenwertvorgabe gemäß auf. Man erhält auf diese Weise ein
geordnetes Indexat für jedes Dokument der vorliegenden
Dokumentensammlung, welches der inhaltserschließenden Relevanz gemäß
unter Berücksichtigung der spezifischen Gewichtung (Diskriminanz)
absteigend sortiert vorliegt.
Über eine neuerliche Gewichtung der Einzelindexate kann diskutiert
werden. So bietet sich eine neuerliche Gewichtung der
Deskriptorenverteilung über die einzelnen Dokumente an, die Parameter
der Lage und Streuung eines Deskriptors bezüglich seiner
Termgewichtsverteilung berücksichtigend eine nach Gesamtrelevanz
geordnete Listung der Deskriptoren ermöglicht.
Problematisiert wird im Verlaufe der Diskussion die Frage nach der
Notwendigkeit einer morphologischen oder lexikonbasierten Bearbeitung
der in Rede stehenden Dokumente im Vorfeld einer eigentlichen
statistischen Auswertung vermöge einer Auszählung extrahierter
Deskriptoren und ihrer nachfolgenden Gewichtung.
Eine der Termgewichtung vorausgehende Zusammenstellung
inhaltsrelevanter Deskriptoren wird als sinnvoll erkannt, da eine
statistische Bewertung zugrundliegendes Datenmaterial voraussetzt,
welches der Problemstellung zufolge weitgehend inhaltserschließend sein
sollte.
Die Diskussion über Verfahren der automatischen Indexierung findet
ihren vorläufigen Abschluß mit dem Hinweis auf das Problem, nach
inhaltserschließender Relevanz geordnete Indexate nach dem Zugang neuer
Dokumente vermöge einer sogenannten Nachindexierung einer neuerlichen
Termgewichtung zuführen zu müssen, da sich das Deskriptorenvokabular
und die entsprechenden Gewichtungen mit dem Hinzukommen neuer Dokumente verändern.
(c) Lerneinheit 7 - Automatische Textzusammenfassung :
Die siebte Lerneinheit einleitend wird seitens der Dozentin das
Indexieren dem Kurzreferat (Abstract) hinsichtlich der in Rede
stehenden inhaltserschließenden Bedeutung vergleichend
gegenübergestellt. Mit dem Hinweis, dass eine nacherzählende
syntaktische Indexierung eines vorliegenden Dokumentes in Gestalt
langgliedriger Deskriptoren-Facetten nicht mehr üblich ist, man
näherhin meistenteils mit einfachen Deskriptoren indexiert, wird auf
die Bedeutung eines Kurzreferates als einer kurzen, klaren und
eigenständigen Inhaltsangabe verwiesen.
Nach einer Diskussion über die Aufgaben und Typen eines Kurzreferates
wird im Verweis auf die DIN-Norm 1426 (Inhaltsangabe von Dokumenten -
Kurzreferate, Literaturberichte) nochmals deutlich gemacht, dass einem
Kurzreferat vornehmlich die Aufgabe zukommt, Relevanzentscheidungen
hinsichtlich der Auswahl eines zur Disposition stehenden Dokumentes zu
ermöglichen.
Mit dem Hinweis darauf, dass sich aktuelle Methoden der automatischen
Textzusammenfassung nicht auf die Rekonstruktion der entsprechenden
intellektuellen Verfahren beziehen, werden in der Initialaufgabe Mutmaßungen
darüber angestellt, auf welche Verfahren eine automatische Zusammenfassung von Texten zurück greifen könnte. Genannt wurde, dass die Länge von Absätzen, bestimmte Signalwörter im Text, typographische
Auszeichnungen, die Gestalt des Text-Layouts und die Stellung von
Wörtern im Text, aber auch deren Häufigkeit für Verfahren der
automatischen Textzusammenfassung von Bedeutung sein könnten.