Schritt 1 |
Schritt 2 |
Schritt 3 |
Schritt 4 |
Schritt 5 |
Schritt 6 |
Schritt 7 |
||
|
|
|
||||||
WissOrg testet
|
Grundformel: Abkürzungen: R = Rank eines Wortes in Häufigkeitslliste (bezogen auf einen Text) A = Anzahl eines Wortes im Text C = Konstante C= R x A |
Grundformel: Abkürzungen: t = term d = Dokument TF = Termfrequenz TF(td)= Auftretenshäufigkeit von t in d Gesamtanzahl der Worte im Dokument |
Verfeinerung der Formel: Abkürzungen: t = term d = Dokument log2 = Logarithmus dualis (Logarithmus auf der Basis 2) Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Eine einfache Formel verwendet den Logarithmus dualis oder log2 (Logarithmus auf der Basis 2: Man nennt die Zahl mit der man 2 potentieren muss, damit man 16 erhält log2 16 = 4). TF(td) = log2 (Häufigkeit von t in d + 1) log2 Gesamtanzahl der Wörter im Dokument |
Grundformel: Abkürzungen: t = term d = Dokument IDF = inverse document frequency IDF(t)= Auftretenshäufigkeit von t in d Anzahl der Dokumente, in denen t vorkommt |
Verfeinerung der Formel: Abkürzungen: t = term d = Dokument IDF = inverse document frequency N = Gesamtzahl der Datensätze n1 = Anzahl der Datensätze, in denen t auftritt Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Eine einfache Formel verwendet den Logarithmus dualis oder log2 (Logarithums auf der Basis 2). IDF(t) = 0.5 + 0.5 x Häufigkeit von t in d x log2 N Anzahl der Dokument, in denen t vorkommt n1 |
Die gängige komplexe Formel für die Errechnung der Termgewichte lautet: |
zurück: Beginn der Lerneinheit |
Stand: 20. August 2003