Worthäufigkeit
Ermittlung der Termfrequenz
Anwendung der Termfrequenz (keyword density) in der Suchmaschinenoptimierung

1. Worthäufigkeit

Die ersten Ansätze zur automatischen Indexierung stammen aus den 50er Jahren. Informationswissenschaftler wie LUHN, SALTON und SPARCK JONES haben mit statistischen Verfahren experimentiert. Ziel der statistischen Verfahren ist es, sinntragenden Wörtern eines Dokumentes Deskriptoren zuzuordnen. Hier zunächst zwei Kerngedanken aus diesen frühen Veröffentlichungen.

Erster Kerngedanke:
Von Hans Peter LUHN stammt der Satz: "It is here proposed that the frequency of word occurrence in an article furnishes a useful measurement of word significance." (frei übersetzt/Ulrike Spree: Es ist zu vermuten, dass die Häufigkeit des Auftretens eines Wortes in einem Text einen guten Anhaltspunkt für seine Bedeutung liefert.)

Quelle: H.P.LUHN: The Automatic Creation of Literature Abstracts (1958)

Zweiter Kerngedanke:
Georges Kingsley ZIPF formulierte bereits in den 1930er Jahren das sogenannte ZIPFSCHE GESETZ:
Zipf beobachtete, dass in einem Text das Produkt aus Anzahl der Wörter und dem Rang dieses Wortes in der Häufigkeitsliste in etwa konstant ist. Er erklärte diese Beobachtung damit, dass es für den Autor eines Textes einfacher ist, für denselben Sachverhalt dieselben Wörter zu verwenden als ständig nach neuen Wörtern zu suchen.

Rang Anzahl RxA/100000 Term
1 138323 1.3832 the

2 72159 1.4432 of

3 56750 1.7025 and

7 22177 1.5524 that

8 21210 1.6968 is

9 20501 1.8451 was

10 19587 1.9587 it

100 2043 2.0430 years

500 394 1.9700 program

4000 47 1.8800 embassy

5000 36 1.8000 vale

10000 14 1.4000 poisoning

Rang	Anzahl	RxA/100000	Term
1	138323	1.3832	the
2	72159	1.4432	of
3	56750	1.7025	and
7	22177	1.5524	that
8	21210	1.6968	is
9	20501	1.8451	was
10	19587	1.9587	it
100	2043	2.0430	years
500	394	1.9700	program
4000	47	1.8800	embassy
5000	36	1.8000	vale
10000	14	1.4000	poisoning

In der dritten Spalte steht das Produkt aus Rang ("the" ist das häufigste Wort im Korpus) und Häufigkeit (Anzahl: wie oft kommt das Wort im Text vor ) dividiert durch 100000, damit die Zahlen kleiner sind. Bei gleicher Häufigkeit wurden die Rangplätze nach alphabetischer Sortierung zugewiesen. Die statistischen Angaben beziehen sich auf die Liste aller Wörter, die häufiger als 10 mal auftreten.

Die Formeldarstellung für das ZIPFSCHE GESETZ lautet: C = R x A

R = Rang eines Wortes in Häufigkeitsliste (bezogen auf einen Text)
A = Anzahl eines Wortes im Text
C = Konstante

Aus diesen Erkenntnisse über die Worthäufigkeit lassen sich für die Entwicklung statistischer Verfahren der Indexierung wichtige Erkenntnisse ableiten:

1. Wenige Wörter treten sehr häufig auf.

a. Die 2 häufigsten Wörter können 10% eines Textes ausmachen,
b. die 6 häufigsten Wörter machen bis zu 20% des Textes aus,
c. die häufigsten 50 Wörter machen bis zu 50% des Textes aus.

2. Viele Wörter sind selten.

Beispiel: in einer englischsprachigen Textsammlung von über 300.000 Dokumenten macht "the" 5.9% des Textes aus und "of" 3.1%.

Sie können die Aussagen über die Worthäufigkeit an diesem online "Word frequency counter" http://www.writewords.org.uk/word_count.asp überprüfen. Kopieren Sie einfach den Unicumtext aus Lerneinheit 4 in das Tool. Welche Worte halten Sie für besonders aussagekräftige Stichworte?

vgl. Die statistische Struktur der Sprache. In. David Crystal: Die Cambridge Enzyklopädie der Sprache. Frankfurt a. Main, 1993, S. 86-87

2. Ermittlung der Termfrequenz

Die Häufigkeit eines Wortes in einem Dokument ist also ein Indikator dafür, wie repräsentativ es für den Inhalt des Gesamtdokuments ist. Eine Maßeinheit für das Gewicht eines Wortes in einem Dokument ist die relative Worthäufigkeit (Termfrequenz = TF). Die Termfrequenz (= TF) lässt sich mit einer einfachen Formel errechnen:

TF(td)= Häufigkeit eines Wortes im Dokument
Anzahl aller Wörter des Dokuments

Abkürzungen:
t = Term
d = Dokument
TF = Termfrequenz

Schauen Sie sich an folgenden Beispielen an, was die Ermittlung der relativen Worthäufigkeit bewirkt.

Beispiel 1:
In einer kurzen E-Mail kommt "E-Learning" (inkl. Komposita) 5 mal vor. Die Mail enthält insgesamt 196 Wörter.

Also rechnen wir :

TF(td) = 5/196 = 0,025

E-Learning hat ein Gewicht von 0,025 für dieses Dokument.

Beispiel 2:
In einem längeren Text zum Informationsmarkt kommt das Wort "E-Learning" (inkl. Komposita) 7 mal vor. Der Text enthält 50.673 Wörter.

TF(td) = 7/50.673 = 0,0001381

E-Learning hat ein Gewicht von 0,0001381 für dieses Dokument.

Verfeinerung der Formel:

Bei langen Texten erhält man also Werte mit sehr vielen Nullen hinter dem Komma. Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Verwendet wird in unserem Beispiel der Logarithmus dualis, also der Logarithmus auf der Basis 2.

Zur Erinnerung an den Mathematikunterricht:
Logarithmus auf der Basis 2 (Logarithmus dualis): Man nennt die Zahl, mit der man 2 potenzieren muss, damit man 16 erhält, log2 von 16 = 4.
In dem web2.0rechner oder einem Tabellenkalkulationsprogramm wie Excel finden Sie eine eigene Funktion für die Errechnung des Logarithmus dualis vor.

Termgewicht = log2 (Häufigkeit von t in d + 1)
log2 Gesamtanzahl der Wörter im Dokument

Ergebnisse nach der neuen Formel:

Beispiel 1:
= log2 (5 + 1)/log 2 196 = 0,34

Beispiel 2:
= log 2 (7 +1) /log 2 50.673 = 0,19

Anwendung der Ergebnisse der Termfrequenz in der Indexierungspraxis

Die ermittelten Gewichtungsergebnisse für die einzelnen Wörter der Dokumente können jetzt als Entscheidungshilfe dafür eingesetzt werden, ob ein Wort als Deskriptor geeignet ist. In der Regel legt man zur Bestimmung von Deskriptoren Schwellenwerte fest. Man könnte z. B. festlegen, dass ein Wort nur dann in als Indexat aufgenommen wird, wenn es mindestens einen Wert von 0.20 erreicht. Für das zweite Dokument würde E-Learning bei der Festlegung dieses Schwellenwertes nicht als Deskriptor vergeben werden.

3. Ermittlung der Termfrequenz (keyword density) in der Suchmaschinenoptimierung

Das Prinzip dieser Formel wird auch im Beschäftigungsfeld Suchmaschinenoptimierung (SEO) verwendet. Nur werden etwas andere Abkürzungen verwendet. Die Termfrequenz (TF) entspricht die Keyowrd Density. Mit Keyword Density berechnet man das Verhältnis eines Suchbegriffs in einem Text, für den eine Webseite optimiert werden soll, im Verhältnis zur Anzahl aller Wörter in einem Text. In den SEO-Tipps der Suchmaschinenanbieter wie Google werden immer Empfehlungen für die ideale Keyworddichte gegeben. Diese liegt zw. 1,5 und 3% bei längeren Texten.

Quelle: Karl KRATZ: SEO Mythos Keyword Density. Online: http://www.karlkratz.de/onlinemarketing-blog/seo-keyword-density/. Abruf: 2014-11-18

Im Web findet man viele Tools, mit denen sich die WDF berechnen lässt, wie z. B. der WDF Rechner von webongo. Probieren Sie das Tool doch einfach einmal aus.

Stand: 06. April 2018

< Seite drucken >
< Zum Seitenanfang >

1. Worthäufigkeit

2. Ermittlung der Termfrequenz

3. Ermittlung der Termfrequenz (keyword density) in der Suchmaschinenoptimierung

STEP 1

STEP 2

STEP 4

STEP 5

LE 06: Statistische Verfahren

LERNEINHEITEN (LE)

ZUSAMMENSCHAU