Diese Grundformel zur Termgewichtung liegt zahlreichen Verfahren der automatischen Indexieurng zu Grunde:
Häufigkeit, mit der
t im Dokument vorkommt
Anzahl der Dokumente in Kollektion,
in denen t vorkommt
Mit Hilfe dieser Formel können Sie das Gewicht einzelner Indexterme für die Dokumente in einer Datenbank ermitteln.
Stellen Sie sich folgende Situation vor:
Wir betrachten drei Dokumente in einer medizinischen
Datenbank. Die Datenbank enthält insgesamt 10.000 Dokumente. Um die
Aufgabe einfach zu halten, bestehen unsere Dokumente jeweils nur aus dem
Titel.
Ti1 = Anwendung von Tenormin bei Krankeiten
des Herzens
Ti2 = Zusammenhang zwischen Beschwerden
der Lunge und Beschwerden des Herzens
Ti3 = Tenormin bei Lungenkrankheiten
Folgende Verteilung der Indexterme liegt in unserer Datenbank vor (Grundform, auf Kompositazerlegung verzichten wir).
Termverteilung in medizinischer Datenbank
Term | Anzahl der Dokumente |
Anwendung | 3000 |
Beschwerde | 2000 |
Herz | 500 |
Krankheit | 4000 |
Lunge | 600 |
Lungenkrankheit | 200 |
Tenormin | 40 |
Zusammenhang | 1500 |
Aufgaben:
Quelle: nach Knorz 1994