Schritt 1 |
Schritt 2 |
Schritt 3 |
Schritt 4 |
Schritt 5 |
Schritt 6 |
Schritt 7 |
||
|
|
|
|
|||||
Termfrequenz
|
Die Häufigkeit eines Wortes in einem Dokument ist ein Indikator dafür, wie repräsentativ es für den Inhalt des Gesamtdokuments ist.
Um das Gewicht eines Wortes für ein Dokument zu ermitteln, errechnet man die relative Worthäufigkeit (TF=Termfrequenz).
Die Termfrequenz (= TF) lässt sich mit einer einfachen Formel errechnen:
TF(td)= Häufigkeit eines Wortes im Dokument  |
Abkürzungen:
t = Term
d = Dokument
TF = Termfrequenz
Schauen Sie sich an folgenden Beispielen an, was die Ermittlung der relativen Worthäufigkeit bewirkt.
Beispiel 1:
In einer kurzen E-Mail kommt "E-Learning" (inkl. Komposita) 5 mal vor. Die Mail enthält insgesamt 196 Wörter.
Also rechnen wir :
TF(td) = 5/196 = 0,025
E-Learning hat ein Gewicht von 0,025 für dieses Dokument.
Beispiel 2:
In einem längeren Text zum Informationsmarkt kommt das Wort "E-Learning" (inkl. Komposita) 7 mal vor. Der Text enthält 50.673 Wörter.
TF(td) = 7/50.673 = 0,0001381
E-Learning hat ein Gewicht von 0,0001381 für dieses Dokument.
Termgewicht = log2 (Häufigkeit von t in d + 1)
|
Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Damit kurze Texte nicht überproportional ins Gewicht fallen, wird zudem im Zähler 1 addiert.
Zur Erinnerung an den Mathematikunterricht:
Logarithmus auf der Basis 2 (Logarithmus dualis): Man nennt die Zahl, mit der man 2 potenzieren muss, damit man 16 erhält, log2 von 16 = 4.
In einem Tabellenkalkulationsprogramm wie Excel finden Sie eine eigene Funktion für die Errechnung des Logarithmus dualis vor.
Beispiel 1:
= log2 (5 + 1)/log 2 196 = 0,34
Beispiel 2:
= log 2 (7 +1) /log 2 50.673 = 0,19
Die ermittelten Gewichtungsergebnisse für die einzelnen Wörter der Dokumente können jetzt als Entscheidungshilfe dafür eingesetzt werden, ob ein Wort als Deskriptor angesetzt wird oder nicht.
In der Regel legt man zur Bestimmung von Deskriptoren Schwellenwerte fest. Man könnte z. B. festlegen, dass ein Wort nur dann in das Indexat aufgenommen wird, wenn es mindesten einen Wert von 0.20 erreicht.
Für das zweite Dokument würde E-Learning bei der Festlegung dieses Schwellenwertes nicht als Deskriptor vergeben werden.
weiter: Aufgabe 2 |
Stand: 08. September 2003