Automatische Indexierung / Übung 2


Übung zur Termgewichtung

 

Diese Grundformel zur Termgewichtung liegt zahlreichen Verfahren der automatischen Indexieurng zu Grunde:

Häufigkeit, mit der t im Dokument vorkommt
Anzahl der Dokumente in Kollektion, in denen t vorkommt

Mit Hilfe dieser Formel können Sie das Gewicht einzelner Indexterme für die Dokumente in einer Datenbank ermitteln.

Stellen Sie sich folgende Situation vor:
Wir betrachten drei Dokumente in einer medizinischen Datenbank. Die Datenbank enthält insgesamt 10.000 Dokumente. Um die Aufgabe einfach zu halten, bestehen unsere Dokumente jeweils nur aus dem Titel.

Ti1 = Anwendung von Tenormin bei Krankeiten des Herzens
Ti2 = Zusammenhang zwischen Beschwerden der Lunge und Beschwerden des Herzens
Ti3 = Tenormin bei Lungenkrankheiten

Folgende Verteilung der Indexterme liegt in unserer Datenbank vor (Grundform, auf Kompositazerlegung verzichten wir).

Termverteilung in medizinischer Datenbank
 
Term  Anzahl der Dokumente 
Anwendung  3000 
Beschwerde  2000 
Herz  500 
Krankheit  4000 
Lunge  600 
Lungenkrankheit  200 
Tenormin  40 
Zusammenhang  1500 

Aufgaben:

  1. Errechnen Sie nach der obenstehenden Formel die Termgewichte der Indexterme in den drei Dokumenten Ti1-Ti3, für die vorliegende Dokumentenkollektion. Indexiert werden alle Substantive.
  2. Stellen Sie sich jetzt vor, Sie erhalten folgende Anfrage: "Tenormin für Beschwerden des Herzens". Errechnen Sie die Relevanz der einzelnen Dokumente für die Anfrage und erstellen Sie ein Ranking der Dokumente nach Relevanz.
  3. Welches Dokument würde Ihnen auf die Recherchefrage "Tenormin für Beschwerden des Herzens" angezeigt, wenn es in der Suchmaschine kein Verfahren zur Termgewichtung gäbe und die Recherche nach der Methode des "exact match" durchgeführt würde?

 
 

Quelle: nach Knorz 1994