LE 5: Statistische Verfahren Formeln

Grundformel:

Abkürzungen:
R = Rank eines Wortes in Häufigkeitslliste (bezogen auf einen Text)
A = Anzahl eines Wortes im Text
C = Konstante

C= R x A

Termfrequenz (TF)

Grundformel:

Abkürzungen:
t = term
d = Dokument
TF = Termfrequenz

TF(td)= Auftretenshäufigkeit von t in d
Gesamtanzahl der Worte im Dokument

Verfeinerung der Formel:

Abkürzungen:
t = term
d = Dokument

log2 = Logarithmus dualis (Logarithmus auf der Basis 2)
Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Eine einfache Formel verwendet den Logarithmus dualis oder log2 (Logarithmus auf der Basis 2: Man nennt die Zahl mit der man 2 potentieren muss, damit man 16 erhält log2 16 = 4).

TF(td) = log2 (Häufigkeit von t in d + 1)
log2 Gesamtanzahl der Wörter im Dokument

Inverse Dokumentenhäufigkeit (IDF)

Grundformel:

Abkürzungen:
t = term
d = Dokument
IDF = inverse document frequency

IDF(t)= Auftretenshäufigkeit von t in d
Anzahl der Dokumente, in denen t vorkommt

Verfeinerung der Formel:

Abkürzungen:
t = term
d = Dokument
IDF = inverse document frequency
N = Gesamtzahl der Datensätze
n1 = Anzahl der Datensätze, in denen t auftritt

Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Eine einfache Formel verwendet den Logarithmus dualis oder log2 (Logarithums auf der Basis 2).

IDF(t) = 0.5 + 0.5 x Häufigkeit von t in d x log2 N
Anzahl der Dokument, in denen t vorkommt n1

Verknüpfung von Termfrequenz und inverser Dokumenthäufigkeit:

Die gängige komplexe Formel für die Errechnung der Termgewichte lautet:

tf * idf

zurück: Beginn der Lerneinheit

Stand: 20. August 2003