Die ersten Ansätze zur automatischen Indexierung stammen aus den 50er Jahren. Informationswissenschaftler wie LUHN, SALTON und SPARCK JONES haben mit statistischen Verfahren experimentiert. Ziel der statistischen Verfahren ist es, sinntragenden Wörtern eines Dokumentes Deskriptoren zuzuordnen. Hier zunächst zwei Kernsätze aus diesen frühen Veröffentlichungen.
Erster Kernsatz:
Von H.P. LUHN stammt der Satz: "It is here proposed that the frequency of word occurrence in an article furnishes a useful measurement of word significance."
Quelle: H.P.LUHN: The Automatic Creation of Literature Abstracts (1958)
Zweiter Kernsatz:
G.K. ZIPF formulierte das sogenannte ZIPFSCHE GESETZ:
Zipf beobachtete, dass in einem Text das Produkt aus Anzahl der Wörter und dem Rang dieses Wortes in der Häufigkeitsliste in etwa konstant ist. Er erklärte diese Beobachtung damit, dass es für den Autor eines Textes einfacher ist, für denselben Sachverhalt dieselben Wörter zu verwenden als ständig nach neuen Wörtern zu suchen.
Rang | Anzahl | RxA/100000 | Term |
---|---|---|---|
1 | 138323 | 1.3832 | the |
2 | 72159 | 1.4432 | of |
3 | 56750 | 1.7025 | and |
7 | 22177 | 1.5524 | that |
8 | 21210 | 1.6968 | is |
9 | 20501 | 1.8451 | was |
10 | 19587 | 1.9587 | it |
100 | 2043 | 2.0430 | years |
500 | 394 | 1.9700 | program |
4000 | 47 | 1.8800 | embassy |
5000 | 36 | 1.8000 | vale |
10000 | 14 | 1.4000 | poisoning |
In der dritten Spalte steht das Produkt aus Rang ("the" ist das häufigste Wort im Korpus) und Häufigkeit (Anzahl: wie oft kommt das Wort im Text vor ) dividiert durch 100000, damit die Zahlen kleiner sind. Bei gleicher Häufigkeit wurden die Rangplätze nach alphabetischer Sortierung zugewiesen.
Die statistischen Angaben beziehen sich auf die Liste aller Wörter, die häufiger als 10 mal auftreten.
Die Formeldarstellung für das ZIPFSCHE GESETZ lautet: C = R x A
R = Rang eines Wortes in Häufigkeitsliste (bezogen auf einen Text)
A = Anzahl eines Wortes im Text
C = Konstante
Aus diesen Erkenntnisse über die Worthäufigkeit lassen sich für die Entwicklung statistischer Verfahren der Indexierung wichtige Erkenntnisse ableiten:
1. Wenige Wörter treten sehr häufig auf. Beispiel: in einer englischsprachigen Textsammlung von über 300.000 Dokumenten macht "the" 5.9% des Textes aus und "of" 3.1%. |
vgl. Die statistische Struktur der Sprache. In. David Crystal: Die Cambridge Enzyklopädie der Sprache. Frankfurt a. Main, 1993, S. 86-87
Die Häufigkeit eines Wortes in einem Dokument ist also ein Indikator dafür, wie repräsentativ es für den Inhalt des Gesamtdokuments ist. Eine Maßeinheit für das Gewicht eines Wortes in einem Dokument ist die relative Worthäufigkeit (Termfrequenz = TF). Die Termfrequenz (= TF) lässt sich mit einer einfachen Formel errechnen:
TF(td)= Häufigkeit eines Wortes im Dokument  |
Abkürzungen:
t = Term
d = Dokument
TF = Termfrequenz
Schauen Sie sich an folgenden Beispielen an, was die Ermittlung der relativen Worthäufigkeit bewirkt.
Beispiel 1:
Beispiel 2:
|
Verfeinerung der Formel:
Bei langen Texten erhält man also Werte mit sehr vielen Nullen hinter dem Komma. Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Damit kurze Texte nicht überproportional ins Gewicht fallen, wird zudem im Zähler 1 addiert.
Zur Erinnerung an den Mathematikunterricht:
Logarithmus auf der Basis 2 (Logarithmus dualis): Man nennt die Zahl, mit der man 2 potenzieren muss, damit man 16 erhält, log2 von 16 = 4.
In einem Tabellenkalkulationsprogramm wie Excel finden Sie eine eigene Funktion für die Errechnung des Logarithmus dualis vor.
Termgewicht = log2 (Häufigkeit von t in d + 1)
|
Ergebnisse nach der neuen Formel:
Beispiel 1:
= log2 (5 + 1)/log 2 196 = 0,34
Beispiel 2:
= log 2 (7 +1) /log 2 50.673 = 0,19
Anwendung der Ergebnisse der Termfrequenz in der Indexierungspraxis
Die ermittelten Gewichtungsergebnisse für die einzelnen Wörter der Dokumente können jetzt als Entscheidungshilfe dafür eingesetzt werden, ob ein Wort als Deskriptor geeignet ist. In der Regel legt man zur Bestimmung von Deskriptoren Schwellenwerte fest. Man könnte z. B. festlegen, dass ein Wort nur dann in als Indexat aufgenommen wird, wenn es mindestens einen Wert von 0.20 erreicht. Für das zweite Dokument würde E-Learning bei der Festlegung dieses Schwellenwertes nicht als Deskriptor vergeben werden.
Stand: 08. März 2005