Inverse Dokumenthäufigkeit

Alle unsere bisherigen Überlegungen beziehen sich auf ein Dokument. Indexierte Dokumente sind in der Regel jedoch Teil einer Dokumentensammlung (z.B. digitale Pressearchive - ZEIT ONLINE). Für die Bestimmung relevanter Dokumente in einer Dokumentsammlung kann die Formel zur Worthäufigkeit um eine weitere Annahme ergänzt werden. Ein Stichwort ist umso aussagekräftiger für den Inhalt eines Dokumentes, desto häufiger es in einem Dokument auftritt, und je seltener es in der Datenbank insgesamt vorkommt. Die Formel zur inversen Dokumentenhäufigkeit (inverse document frequency (IDF)) bezieht die Häufigkeit eines Wortes in der Dokumentenkollektion mit in die Berechnung des Termgewichts ein.

Die inverse Dokumentenhäufigkeit (IDF) gibt die Relation der Dokumente, in denen das Wort vorkommt, zur Anzahl aller Dokumente in der Datenbank an. Hierzu teilt man die Anzahl der Dokumente in der Datenbank (N) durch die Anzahl der Dokumente, in denen der Term i (n) vorkommt.

IDF(i) = (N/n) 

Wenn in der Datenbank 10.000 Dokumente gespeichert sind und 10 den Term Beispielterm enthalten rechnet man also

10.000/10 = 1.000

Um die Spannweite der errechneten Werte nicht allzu groß werden zu lassen, arbeitet man auch hier mit logarithmischen Werten. Die klassische Berechnungsformel nach Sparck-Jones lautet:

IDF(i) = log2(N/n) + 1

Abkürzungen:
IDF(i) = inverse document frequency des Wortes i
N = Gesamtzahl der Dokumente in der Datenbank. Dieser Wert ändert sich ständig bei schnell wachsenden Datenbanken wie Internet Suchmaschinen
n = Anzahl der Dokumente, in denen i vorkommt

log2(10.000/10) + 1 = 11


Beispielrechnungen:

Ausgangspunkt sei eine Kochbuchdatenbank mit den Volltexten von ungefähr 1.000 Rezepten.

Zitrone kommt in 300 Rezepten vor.
IDF(Zitrone) = log 2(1.000/300) + 1 = 1,74 + 1 = 2,74 (Rang 2)

Es gibt 2 Rezepte mit Pekanüssen
IDF(Pekanüsse) = log 2(1.000/2) + 1 = 10 (Rang 1)

Salz kommt in 800 Dokumenten der Sammlung vor.
IDF(Salz) = log 2(1.000/800) + 1 = 1.32 (Rang 3)

Kombination von Termfrequenz und inverser Dokumenthäufigkeit

Das Verfahren zur statistischen Ermittlung von geeigneten Deskriptoren für Texte beruht also auf folgenden Annahmen:

Man verbindet nun die Errechnung der Termfrequenz mit der Errechnung der inversen Dokumenthäufigkeit. Damit ist das Gewicht, also die angenommene Qualität des Deskriptors, abschließend berechnet. Die gängige Formel für die Errechnung der Termgewichte lautet:

TF x IDF


Warum sind die Formeln so, wie sie sind (für Mathematikinteressierte)? Eine sehr gute englischsprachige Erklärung der Hintergründe liefert die Online-Vorlesung von Professor Dan Jurafsky.


IDF (inverse document frequency) in der Suchmaschinenoptimierung

Auch im SEO hat man erkannt, dass es sinnvoll sein kann, bei der Berechnung der Keyworddichte nicht nur die eigene Seite, sondern auch die anderen Seiten im Web, die auf dieselben keywords optimiert sind, zu berücksichtigen. Die Formel im SEO lautet WDF*IDF. Natürlich findet man im Web auch Tools, mit denen sich WDF*IDF für die keywords einer Webseite berechnen lässt. Bei OnPage-Tool wird die Keyworddichte der eigenen Webseite zu 15 anderen Webseiten in Relation gestellt. N ergibt sich dann aus allen Keywords der 15 berücksichtigten Seiten.
Quelle: Karl KRATZ: SEO Mythos Keyword Density. Online: http://www.karlkratz.de/onlinemarketing-blog/seo-keyword-density/. Abruf: 2014-11-18

Stand: 10. November 2015

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 5

Übung
Step 1
Step 2
Step 3
Step 4
Step 5
Lektüre 2: Inverse Dokumenthäufigkeit

LE 06: Statistische Verfahren