Schritt 1

Schritt 2

Schritt 3

Schritt 4

Schritt 5

Schritt 6

Schritt 7

 

Sie sind hier  

Einführung
 

Aufgabe 1
 

Häufigkeit
- Übung

Termfrequenz
 

Aufgabe 2
 

IDF
- Übung

WissOrg testet
     - Formeln



Formelsammlung

Grundformeln für statistische Verfahren


Zipfsches Gesetz

Grundformel:

Abkürzungen:
R = Rank eines Wortes in Häufigkeitslliste (bezogen auf einen Text)
A = Anzahl eines Wortes im Text
C = Konstante

C= R x A

Termfrequenz (TF)

Grundformel:

Abkürzungen:
t = term
d = Dokument
TF = Termfrequenz

TF(td)= Auftretenshäufigkeit von t in d
             Gesamtanzahl der Worte im Dokument
Verfeinerung der Formel:

Abkürzungen:
t = term
d = Dokument

log2 = Logarithmus dualis (Logarithmus auf der Basis 2)
Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Eine einfache Formel verwendet den Logarithmus dualis oder log2 (Logarithmus auf der Basis 2: Man nennt die Zahl mit der man 2 potentieren muss, damit man 16 erhält log2 16 = 4).

TF(td) = log2 (Häufigkeit von t in d + 1)   
              log2 Gesamtanzahl der Wörter im Dokument            

Inverse Dokumentenhäufigkeit (IDF)


Grundformel:

Abkürzungen:
t = term
d = Dokument
IDF = inverse document frequency

IDF(t)= Auftretenshäufigkeit von t in d
             Anzahl der Dokumente, in denen t vorkommt

Verfeinerung der Formel:

Abkürzungen:
t = term
d = Dokument
IDF = inverse document frequency
N = Gesamtzahl der Datensätze
n1 = Anzahl der Datensätze, in denen t auftritt

Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Eine einfache Formel verwendet den Logarithmus dualis oder log2 (Logarithums auf der Basis 2).

IDF(t) = 0.5 +  0.5 x Häufigkeit von t in d                                    x log2   N
                       Anzahl der Dokument, in denen t vorkommt                      n1

Verknüpfung von Termfrequenz und inverser Dokumenthäufigkeit:


Die gängige komplexe Formel für die Errechnung der Termgewichte lautet:
 
tf * idf

zurück: Beginn der Lerneinheit


Stand: 20. August 2003