Schritt 1

Schritt 2

Schritt 3

Schritt 4

Schritt 5

Schritt 6

Schritt 7

Sie sind hier  

 

Einführung
 

Aufgabe 1
 

Häufigkeit
- Übung

Termfrequenz
 

Aufgabe 2
 

IDF     
- Übung

WissOrg testet
      - Formeln



Inverse Dokumenthäufigkeit

Alle bisherigen Überlegungen beziehen sich auf ein Dokument. Indexierte Dokumente sind in der Regel jedoch Teil einer Dokumentensammlung (z.B. digitale Pressearchive). Für eine Dokumentsammlung lässt sich die Bedeutung der Worthäufigkeit präzisieren. Ein Stichwort ist umso aussagekräftiger für den Inhalt eines Dokumentes, desto häufiger es in einem Dokument auftritt, und je seltener es in der Datenbank insgesamt vorkommt.
Wie man die Häufigkeit eines Wortes in der Dokumentenkollektion mit in die Berechnung einbezieht, regelt die inverse Dokumentenhäufigkeit = inverse document frequency (IDF).

Die inverse Dokumentenhäufigkeit (IDF) gibt die Relation der Dokumente, in denen das Wort vorkommt, zur Anzahl der gesamten Dokumente an.

Mathematisch lässt sich das in folgende Grundformel umsetzen:

IDF(t)= Auftretenshäufigkeit von t in d                      
             Anzahl der Dokumente, in denen t vorkommt

Abkürzungen:
t = Term
d = Dokument
IDF = inverse document frequency

Beispiel:
Ausgangspunkt ist eine Kochbuchdatenbank mit den Volltexten von ungefähr 1000 Rezepten.

In Rezept 1 kommt Zitrone 3 mal vor.
Insgesamt kommt Zitrone in 300 Rezepten vor.
IDF (Zitrone in Rezept 1) = 3/300 = 0.01 (Rang 2)

Pekanüsse kommt 1 mal vor, aber es gibt nur 2 Rezepte mit Pekanüssen
IDF (Pekanüsse in Rezept 1) = 1/2 = 0.5 (Rang 1)

Salz kommt 2 mal vor, aber es kommt in 800 Dokumenten der Sammlung vor.
IDF (Salz in Rezept 1) = 2/800 = 0.0025 (Rang 3)

Verfeinerung der Formel:

Analog zur Formel für die Termfrequenz könnnen Sie auch bei der IDF mit logarithmischen Werten arbeiten, um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten.
Eine einfache Formel verwendet den Logarithmus dualis oder log2 (Logarithums auf der Basis 2).

IDF(t) = ( 0.5 +  0.5 x Häufigkeit von t in d                             )           x log2 N
                        Anzahl der Dokumente, in denen t vorkommt                       n1


Abkürzungen:

t= Term
d = Dokument
IDF = inverse document frequency
N = Gesamtzahl der Datensätze
n1 = Anzahl der Datensätze, in denen t auftritt

Beispiel nach der neuen Formel:

IDF Zitrone in Rezept 1 =

( 0.5 +  0.5 x 3  )           x log2 1000
             300                            300


Ergebnis: = 0.86

Pekanüsse in Rezept 1 = 6,72

Salz in Rezept 1 = 0.16

Kombination von Termfrequenz und inverser Dokumenthäufigkeit

Das Verfahren zur statistischen Ermittlung von geeigneten Deskriptoren für Texte beruht also im Prinzip auf folgenden Annahmen:

Man verbindet nun die Errechnung der Termfrequenz mit der Errechnung der inversen Dokumenthäufigkeit. Damit ist das Gewicht, also die angenommene Qualität des Deskriptors, abschließend berechnet.

Die gängige Formel für die Errechnung der Termgewichte lautet:

tf x idf

Zur Überprüfung des Gelernten machen Sie jetzt bitte die Übung.

weiter: Übung


Stand: 20. August 2003