Diese Grundformel zur Termgewichtung liegt zahlreichen Verfahren der automatischen Indexieurng zu Grunde:
Häufigkeit, mit der
t im Dokument vorkommt
Anzahl der Dokumente in Kollektion,
in denen t vorkommt
Mit Hilfe dieser Formel können Sie das Gewicht einzelner Indexterme für die Dokumente in einer Datenbank ermitteln.
Stellen Sie sich folgende Situation vor:
Wir betrachten drei Dokumente in einer medizinischen
Datenbank. Die Datenbank enthält insgesamt 10.000 Dokumente. Um die
Aufgabe einfach zu halten, bestehen unsere Dokumente jeweils nur aus dem
Titel.
Ti1 = Anwendung von Tenormin bei Krankeiten
des Herzens
Ti2 = Zusammenhang zwischen Beschwerden
der Lunge und Beschwerden des Herzens
Ti3 = Tenormin bei Lungenkrankheiten
Folgende Verteilung der Indexterme liegt in unserer Datenbank vor (Grundform, auf Kompositazerlegung verzichten wir).
Termverteilung in medizinischer Datenbank
 
| Term | Anzahl der Dokumente | 
| Anwendung | 3000 | 
| Beschwerde | 2000 | 
| Herz | 500 | 
| Krankheit | 4000 | 
| Lunge | 600 | 
| Lungenkrankheit | 200 | 
| Tenormin | 40 | 
| Zusammenhang | 1500 | 
Aufgaben:
Quelle: nach Knorz 1994