LE 5: Statistische Verfahren 3

Worthäufigkeit

Die ersten Ansätze zur automatischen Indexierung stammen aus den 50er Jahren. Wissenschaftler wie LUHN, SALTON und SPARCK JONES haben mit statistischen Verfahren experimentiert. Ziel der statistischen Verfahren ist es, sinntragenden Wörtern eines Dokumentes Deskriptoren zuzuordnen. Hier zunächst einige Kernsätze aus frühen Veröffentlichungen.

Erster Satz:
Von H.P. LUHN stammt der Satz: "It is here proposed that the frequency of word occurrence in an article furnishes a useful measurement of word significance."

Quelle: H.P.LUHN: The Automatic Creation of Literature Abstracts (1958)

Zweiter Satz:
G.K. ZIPF formulierte das sogenannte ZIPFSCHE GESETZ:
Zipf beobachtete, dass in einem Text das Produkt aus Anzahl der Wörter und dem Rank dieses Wortes in der Häufigkeitsliste in etwa konstant ist. Er erklärte diese Beobachtung damit, dass es für den Autor eines Textes einfacher ist, für denselben Sachverhalt dieselben Wörter zu verwenden als ständig nach neuen Wörtern zu suchen.

Rang Anzahl RxA/100000 Term
1 138323 1.3832 the

2 72159 1.4432 of

3 56750 1.7025 and

4 52941 2.1176 to

5 46523 2.3262 a

6 42603 2.5562 in

7 22177 1.5524 that

8 21210 1.6968 is

9 20501 1.8451 was

10 19587 1.9587 it

100 2043 2.0430 years

500 394 1.9700 program

1000 207 2.0700 jones

2000 105 2.1000 granted

3000 67 2.0100 agencies

4000 47 1.8800 embassy

5000 36 1.8000 vale

10000 14 1.4000 poisoning

12034 11 1.3237 yell

Rang	Anzahl	RxA/100000	Term
1	138323	1.3832	the
2	72159	1.4432	of
3	56750	1.7025	and
4	52941	2.1176	to
5	46523	2.3262	a
6	42603	2.5562	in
7	22177	1.5524	that
8	21210	1.6968	is
9	20501	1.8451	was
10	19587	1.9587	it
100	2043	2.0430	years
500	394	1.9700	program
1000	207	2.0700	jones
2000	105	2.1000	granted
3000	67	2.0100	agencies
4000	47	1.8800	embassy
5000	36	1.8000	vale
10000	14	1.4000	poisoning
12034	11	1.3237	yell

Minimum: 1.24982
Maximum: 2.55618
Mittelwert: 1.697
Varianz: 0.077
Standardabweichung: 0.277

In der dritten Spalte steht das Produkt aus Rang ("the" ist das häufigste Wort im Korpus) und Häufigkeit (Anzahl: wie oft kommt das Wort im Text vor ) dividiert durch 100000, damit die Zahlen kleiner sind. Bei gleicher Häufigkeit wurden die Rangplätze nach alphabetischer Sortierung zugewiesen. Die statistischen Angaben beziehen sich auf die Liste aller Wörter, die häufiger als 10 mal auftreten.

Die Formeldarstellung für das ZIPFSCHE GESETZ lautet: C = R x A

R = Rank eines Wortes in Häufigkeitsliste (bezogen auf einen Text)
A = Anzahl eines Wortes im Text
C = Konstante

Fazit

Aus diesen Erkenntnisse über die Worthäufigkeit lassen sich für die Entwicklung statistischer Verfahren der Indexierung wichtige Erkenntnisse ableiten:

1. Wenige Wörter treten sehr häufig auf.

a. Die 2 häufigsten Wörter können 10% eines Textes ausmachen,
b. die 6 häufigsten Wörter machen 20% des Textes aus,
c. die häufigsten 50 Wörter machen 50% des Textes aus.

2. Viele Wörter sind selten.

Beispiel: in einer englischsprachigen Textsammlung von über 300.000 Dokumenten macht "the" 5.9% des Textes aus und "of" 3.1%.

Schauen Sie sich jetzt bitte die Übung an und überlegen Sie, inwiefern diese Erkenntnisse zur Worthäufigkeit in Texten für die Entwicklung statistischer Verfahren relevant sein könnten.