Lerneinheit 5

Statistische Verfahren

Ausgangslage

WissOrg hatte die Einführung eines Volltext-Invertierungs-Programms vor, aber es stellte sich die Frage, ob die damit erreichten Qualitäten ausreichend sind.

Als Ausgangslage betrachtete das Plenum folgende Definition aus der DIN Norm 31623:

"Indexieren ist das Zuordnen von Deskriptoren oder Notationen zu einer dokumentarischen Bezugseinheit zur Wiedergabe der einzelnen darin enthaltenen Sachverhalte."

Es stellten sich insbesondere zwei Fragen, die im Plenum diskutiert wurden:
1. Warum ist Volltextinvertierung keine echte automatische Indexierung?
2. Welche Mängel haben die bisher behandelten Verfahren ?

Das Plenum gelangte zu nachstehenden Ergebnissen:
Volltextinvertierung ist aus folgenden Gründen keine echte automatische Indexierung:

Stichwörter geben keine Sachverhalte wieder,
es wird kein Unterschied zwischen im Kontext bedeutungsvollen Wörtern und Füllwörtern deutlich,
Deskriptoren werden extrahiert und nicht zugeordnet,
die Bestimmung der Dokumentarischen Bezugseinheit kann problematisch sein.

Als Mängel der bisher kennengelernten Verfahren wurden folgende erkannt:

die Unterscheidung zwischen Füllwort und bedeutungsvollem Wort ist mangelhaft,
eine Gewichtung ist unmöglich,
es ist keine Indexierung in Bezug auf die Kollektion ( die anderen Dokumente ) möglich.

Ein bisheriges Fazit hiervon ist dieses:
alle Dokumente werden als gleich bedeutungsvoll angesehen, aber die Bedeutung eines Dokuments ist immer abhängig von den anderen Dokumenten zum gleichen Thema.

Daher ergab sich folgende Frage, die im Plenum diskutiert wurde:
Wie könnten geeignete Deskriptoren extrahiert werden?

Das Plenum kam zu folgenden Ergebnissen:

die Auswertung bestimmter Felder sollte unterschiedlich gehandhabt werden, um die Eignung als Deskriptor besser bewerten zu können, also
Auswertung von Meta-Tags bei HTML / andere Layout-Infos auswerten
Stellung eines Wortes im Text beachten
( Stellung am Anfang oder Ende eines Textes deutet auf höhere Bedeutung hin, aber dies ist abhängig von der Textsorte ! )
die häufigsten Wörter sollten aussortiert werden und zwar mit Hilfe einer Stoppwort-Liste
Groß- und Kleinschreibung sollte ausgewertet werden ( bei deutschen Texten ), es sollten also Substantive identifiziert werden
die relative Häufigkeit von Texten sollte angegeben werden, also bezogen auf einen einzelnen Text und dessen Textlänge
innerhalb der Deskriptorenliste sollte pro Dokument ein Ranking erstellt werden, um nur die sinnvollsten Deskriptoren für das Dokument zu bestimmen

Kurz zusammengefasst sind also folgende Schwächen der linguistischen Verfahren zu betrachten:

es gibt kein Ranking im Index, welches für ein Retrieval genutzt werden könnte
die Dokument werden nur für sich betrachtet
die Einträge im Index repräsentieren nicht den Inhalt der Dokumente

Erkenntnisse auf Basis der Statistik

Durch Anwendung statistischer Methoden auf Dokumente kam es zu einem mehrfachen Erkenntnisgewinn:
1. viele Wörter sind selten und können daher den Inhalt eines Dokuments nicht repräsentieren
2. Texte lassen sich nach Verteilung der Worthäfigkeit unterscheiden

Außerdem wurde das sogenannte ZIPFsche Gesetz entdeckt,welches für den Prozess der Entscheidungsfindung bei WissOrg jedoch nicht wirklich wichtig ist:
Dieses Gesetz sagt aus, dass das Produkt aus dem Rank, den ein Wort bei der Worthäufigkeit eines Textes einnimmt, und der Anzahl des Auftauchens in diesem Text in etwa konstant ist.

mögliche Lösungswege bei der Suche geeigneter Deskriptoren

Das grundsätzliche Problem bei der Bestimmung der geeigneten Deskriptoren ist das der Auswahl ( nicht alle Wörter sind gleich gut geeignet ) und der Relevanz ( nicht alle Deskriptoren sind gleich aussagekräftig, manche bilden nur Nebenaspekte des Dokuments ab ).

Es geht also nicht um die absolute Häufigkeit eines Wortes, sondern um die relative Häufigkeit in Bezug zur Textlänge.

Ein Beispiel soll dies illustrieren:
Wenn in einer 10-zeiligen DPA-Meldung das Wort "Doping" fünf Mal auftaucht, dann ist dies sicherlich anders zu beurteilen, als wenn "Doping" fünf Mal in einem dreiseitigen Artikel vorkommt.
( Aus didaktischen Gründen wurde darauf verzichtet, berechtigte Einwände gegen diese einfache Betrachtung schon an dieser Stelle zu diskutieren. Sie wurden im weiteren Verlauf noch angesprochen. )

In diesem Zusammenhang wurde der Begriff der "Termfrequenz" eingeführt, der genau diese relative Häufigkeit beschreiben soll.
"Termfrequenz" ist das Verhältnis der Anzahl des Auftauchens eines Worts im Text zur Gesamtzahl der Wörter, aus denen ein Text besteht.
Um einen Wertebereich zwischen 0 und 1 zu erhalten, wird in der Rechnung mit Logarithmen gearbeitet.

Bei der "Termfrequenz" gilt es jedoch folgendes zu beachten:
sie bietet bei kurzen Texten keine besseren Ergebnisse als die reine Volltextinvertierung und sie beachtet nicht, dass sich Autoren in manchen Fällen Mühe geben, gerade nicht eintönig zu schreiben und deswegen gerade andere Wörter zu benutzen.