Thema:

Statistische Verfahren der automatischen Indexierung,
Verfahren der automatischen Textzusammenfassung

Protokoll der Sitzung vom:

26.05.2005

Arbeitsauftrag:

Aufgabe

Verlauf unserer Diskussion:


1. Ankündigung des Klausurtermines:


Donnerstag, den 07.07.2005 von 9.00 bis 12.00 Uhr Es ist erlaubt, eine Seite handschriftlicher Notizen mitzubringen.

2. Besprechung der Übung 6 :

Kurze Vorstellung der ersten Aufgabe von Herr Wientapper:
Die Berechnungen mit Formeln stehen im Verzeichnis.
Anmerkungen von Frau Prof. Dr. Spree: Es hat keinen Einfluss auf die Vergleichbarkeit, ob man mit Logarithmus2 oder mit dem natürlichen Logarithmus arbeitet. Sehr geringer Diskriminanzwert leistet keinen Beitrag, die unterschiedlichen Dokumente einer Dokumentensammlung inhaltlich voneinander zu unterscheiden. In der Klausur wird die Komplexität der Berechnung sehr gering sein.

Vorstellung eines Flussdiagramms zur Erstellung eines Indexates einer Dokumentensammlung von Frau Sapich: Das Diagramm und Erläuterungen stehen im Verzeichnis. Gefahr bei der Indexierung: Wenn man nach dem Zugang neuer Dokumente das Vokabular und die entsprechenden Gewichtungen verändert (z.B. Kybernetik - Robotik), verändert sich auch die Präzision (Dokumente gehen bei der Recherche verloren). Mögliche Lösungen wären abstrakte Bezeichnungen und vorgegebene Synonyme im Thesaurus.

3. Lerneinheit 7 - Automatische Textzusammenfassung :

Die unterschiedlichen inhaltserschließende Funktionen von Abstracts und Indexierung wurden gemeinsam festgesetzt und verglichen: Funktion einer Indexierung ist die Wiederauffindbarkeit und von einem Abstract - Relevanzbestimmung (Tauglichkeit eines gefundenen Textes). Wenn man die unterschiedliche Methoden der automatischen Textzusammenfassung, die Word bietet auswertet und vergleicht, kommt man zu dem Schluss, dass bestimmte Signalwörter im Text, typographische Auszeichnungen, die Gestalt des Text-Layouts und die Stellung von Wörtern im Text, aber auch deren Häufigkeit für Verfahren der automatischen Textzusammenfassung von Bedeutung sein müssen.

Das wichtigste Fazit aus der Sitzung:

  • aktuelle Methoden der automatischen Textzusammenfassung rekonstruieren nicht die entsprechenden intellektuellen Verfahren.
  • der strukturelle Aufbau eines Textes, die inhaltsrelevante Bedeutung bestimmter Signalwörter und die KWIK Methode können zur automatischen Erstellung von Abstracts eingesetzt werden.


Datum:26.05.2005
Protokollant:Tatjana Knecht

Protokoll