Lerneinheit 5

Statistische Verfahren

Ausgangslage

WissOrg hatte die Einführung eines Volltext-Invertierungs-Programms vor, aber es stellte sich die Frage, ob die damit erreichten Qualitäten ausreichend sind.

Als Ausgangslage betrachtete das Plenum folgende Definition aus der DIN Norm 31623:

"Indexieren ist das Zuordnen von Deskriptoren oder Notationen zu einer dokumentarischen Bezugseinheit zur Wiedergabe der einzelnen darin enthaltenen Sachverhalte."

Es stellten sich insbesondere zwei Fragen, die im Plenum diskutiert wurden:
1. Warum ist Volltextinvertierung keine echte automatische Indexierung?
2. Welche Mängel haben die bisher behandelten Verfahren ?


Das Plenum gelangte zu nachstehenden Ergebnissen:
Volltextinvertierung ist aus folgenden Gründen keine echte automatische Indexierung:


Als Mängel der bisher kennengelernten Verfahren wurden folgende erkannt:

Ein bisheriges Fazit hiervon ist dieses:
alle Dokumente werden als gleich bedeutungsvoll angesehen, aber die Bedeutung eines Dokuments ist immer abhängig von den anderen Dokumenten zum gleichen Thema.

Daher ergab sich folgende Frage, die im Plenum diskutiert wurde:
Wie könnten geeignete Deskriptoren extrahiert werden?

Das Plenum kam zu folgenden Ergebnissen:

Kurz zusammengefasst sind also folgende Schwächen der linguistischen Verfahren zu betrachten:

Erkenntnisse auf Basis der Statistik

Durch Anwendung statistischer Methoden auf Dokumente kam es zu einem mehrfachen Erkenntnisgewinn:
1. viele Wörter sind selten und können daher den Inhalt eines Dokuments nicht repräsentieren
2. Texte lassen sich nach Verteilung der Worthäfigkeit unterscheiden

Außerdem wurde das sogenannte ZIPFsche Gesetz entdeckt,welches für den Prozess der Entscheidungsfindung bei WissOrg jedoch nicht wirklich wichtig ist:
Dieses Gesetz sagt aus, dass das Produkt aus dem Rank, den ein Wort bei der Worthäufigkeit eines Textes einnimmt, und der Anzahl des Auftauchens in diesem Text in etwa konstant ist.

mögliche Lösungswege bei der Suche geeigneter Deskriptoren

Das grundsätzliche Problem bei der Bestimmung der geeigneten Deskriptoren ist das der Auswahl ( nicht alle Wörter sind gleich gut geeignet ) und der Relevanz ( nicht alle Deskriptoren sind gleich aussagekräftig, manche bilden nur Nebenaspekte des Dokuments ab ).

Es geht also nicht um die absolute Häufigkeit eines Wortes, sondern um die relative Häufigkeit in Bezug zur Textlänge.

Ein Beispiel soll dies illustrieren:
Wenn in einer 10-zeiligen DPA-Meldung das Wort "Doping" fünf Mal auftaucht, dann ist dies sicherlich anders zu beurteilen, als wenn "Doping" fünf Mal in einem dreiseitigen Artikel vorkommt.
( Aus didaktischen Gründen wurde darauf verzichtet, berechtigte Einwände gegen diese einfache Betrachtung schon an dieser Stelle zu diskutieren. Sie wurden im weiteren Verlauf noch angesprochen. )

In diesem Zusammenhang wurde der Begriff der "Termfrequenz" eingeführt, der genau diese relative Häufigkeit beschreiben soll.
"Termfrequenz" ist das Verhältnis der Anzahl des Auftauchens eines Worts im Text zur Gesamtzahl der Wörter, aus denen ein Text besteht.
Um einen Wertebereich zwischen 0 und 1 zu erhalten, wird in der Rechnung mit Logarithmen gearbeitet.

Bei der "Termfrequenz" gilt es jedoch folgendes zu beachten:
sie bietet bei kurzen Texten keine besseren Ergebnisse als die reine Volltextinvertierung und sie beachtet nicht, dass sich Autoren in manchen Fällen Mühe geben, gerade nicht eintönig zu schreiben und deswegen gerade andere Wörter zu benutzen.