Thema:

Statistische Verfahren der Inhaltserschließung (Besprechung der Übung), Verfahren und Konzepte der automatischen Textzusammenfassung

Protokoll der Sitzung vom:

19.05.2005

Verlauf unserer Diskussion:


(a) Klärung einiger Formalien :


Festlegung des Klausurtermines : Donnerstag, den 07.07.2005 von 9.00 bis 12.00 Uhr ! Zusatztermin entfällt !

(b) Besprechung der Übung :

Vorstellung des Flußdiagramms von Kastendieck mitsamt einer ausführlichen Erläuterung :

Der in Gestalt eines Flußdiagramms vorgestellte Algorithmus zur Erstellung eines dokumentenweise gewichteten Indexates einer vorliegenden Dokumentensammlung basiert auf einer konventionellen wörterbuchbasierten Indexierung mit Vorzugsbenennungen. In Verbindung mit einer gesonderten Behandlung von Mehrwortbegriffen und Teilwörtern wird eine Deskriptorenliste einer nachfolgenden Gewichtung zugeführt, die begrifflich und terminologisch kontrolliert den jeweiligen Inhalt erschließt und sich zugleich in der Art einer Volltextinvertierung an den Benennungen des jeweiligen Textes orientiert : von einer weitergehenden Indexierung von aus Teilwörtern bestehenden Einfachdeskriptoren vermöge einer Dekomposition wird abgesehen, äquivalente Benennungen werden nicht indexiert.

Der schlußendliche Index führt dokumentenweise die jeweiligen Deskriptoren nach Termgewicht absteigend sortiert der Schwellenwertvorgabe gemäß auf. Man erhält auf diese Weise ein geordnetes Indexat für jedes Dokument der vorliegenden Dokumentensammlung, welches der inhaltserschließenden Relevanz gemäß unter Berücksichtigung der spezifischen Gewichtung (Diskriminanz) absteigend sortiert vorliegt.

Über eine neuerliche Gewichtung der Einzelindexate kann diskutiert werden. So bietet sich eine neuerliche Gewichtung der Deskriptorenverteilung über die einzelnen Dokumente an, die Parameter der Lage und Streuung eines Deskriptors bezüglich seiner Termgewichtsverteilung berücksichtigend eine nach Gesamtrelevanz geordnete Listung der Deskriptoren ermöglicht.

Problematisiert wird im Verlaufe der Diskussion die Frage nach der Notwendigkeit einer morphologischen oder lexikonbasierten Bearbeitung der in Rede stehenden Dokumente im Vorfeld einer eigentlichen statistischen Auswertung vermöge einer Auszählung extrahierter Deskriptoren und ihrer nachfolgenden Gewichtung. Eine der Termgewichtung vorausgehende Zusammenstellung inhaltsrelevanter Deskriptoren wird als sinnvoll erkannt, da eine statistische Bewertung zugrundliegendes Datenmaterial voraussetzt, welches der Problemstellung zufolge weitgehend inhaltserschließend sein sollte.

Die Diskussion über Verfahren der automatischen Indexierung findet ihren vorläufigen Abschluß mit dem Hinweis auf das Problem, nach inhaltserschließender Relevanz geordnete Indexate nach dem Zugang neuer Dokumente vermöge einer sogenannten Nachindexierung einer neuerlichen Termgewichtung zuführen zu müssen, da sich das Deskriptorenvokabular und die entsprechenden Gewichtungen mit dem Hinzukommen neuer Dokumente verändern.

(c) Lerneinheit 7 - Automatische Textzusammenfassung :

Die siebte Lerneinheit einleitend wird seitens der Dozentin das Indexieren dem Kurzreferat (Abstract) hinsichtlich der in Rede stehenden inhaltserschließenden Bedeutung vergleichend gegenübergestellt. Mit dem Hinweis, dass eine nacherzählende syntaktische Indexierung eines vorliegenden Dokumentes in Gestalt langgliedriger Deskriptoren-Facetten nicht mehr üblich ist, man näherhin meistenteils mit einfachen Deskriptoren indexiert, wird auf die Bedeutung eines Kurzreferates als einer kurzen, klaren und eigenständigen Inhaltsangabe verwiesen.

Nach einer Diskussion über die Aufgaben und Typen eines Kurzreferates wird im Verweis auf die DIN-Norm 1426 (Inhaltsangabe von Dokumenten - Kurzreferate, Literaturberichte) nochmals deutlich gemacht, dass einem Kurzreferat vornehmlich die Aufgabe zukommt, Relevanzentscheidungen hinsichtlich der Auswahl eines zur Disposition stehenden Dokumentes zu ermöglichen.

Mit dem Hinweis darauf, dass sich aktuelle Methoden der automatischen Textzusammenfassung nicht auf die Rekonstruktion der entsprechenden intellektuellen Verfahren beziehen, werden in der Initialaufgabe Mutmaßungen darüber angestellt, auf welche Verfahren eine automatische Zusammenfassung von Texten zurück greifen könnte. Genannt wurde, dass die Länge von Absätzen, bestimmte Signalwörter im Text, typographische Auszeichnungen, die Gestalt des Text-Layouts und die Stellung von Wörtern im Text, aber auch deren Häufigkeit für Verfahren der automatischen Textzusammenfassung von Bedeutung sein könnten.

Das wichtigste Fazit aus der Sitzung:

  • aktuelle Methoden der automatischen Textzusammenfassung rekonstruieren nicht die entsprechenden intellektuellen Verfahren.
  • Vermöge von Annahmen über den struktuellen Aufbau eines Textes und der inhaltsrelevanten Bedeutung bestimmter Signalwörter werden in Verbindung mit dem Auslesen bestimmter Schlagwörter entsprechende Textbestandteile Gegenstand eines automatisch erstellten Kurzreferates.


Datum:19.05.2005
Protokollant:Philipp Kastendieck

Protokoll