Das Relevanz Ranking lässt sich nach einer einfachen Formel berechnen. Schauen Sie sich dazu folgendes Beispiel an.
Gesucht sind Dokumente zum Thema "Tiere und Pflanzen in Korallenriffs" in einer großen biologischen Datenbank mit 1.000.000 Datensätzen.
Die Datenbank enthält
Zunächst wird eine vereinfachte Formel zur Berechnung der Gewichte der einzelnen Suchtermini angewandt. Die Formel kennen Sie bereits aus der Lerneinheit "Statistische Verfahren". In dem folgenden Beispiel wird mit dem sogenannten natürlichen Logarithmus (= zur Basis 2,718..) gearbeitet. Auf dem Taschenrechner die Taste ln.
G = log(N/n) |
In diesem Beispiel:
Für jeden Datensatz, der einen oder mehrere der Suchtermini enthält, werden folgende Schwellenwerte berechnet:
MAG = MMG |
a) 2 häufig vorkommende Termini (z.B. Tiere von Pflanzen)
MAG = Summe der Gewichte beider Suchtermini |
b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. 'Tiere im Korallenriff')
MAG = Gewicht des seltenen Suchterminus |
c) 2 selten vorkommende Suchtermini (z.B. 'Korallenriff und Seeanemone')
MAG = Gewicht von einem der beiden Suchtermini |
MAG = MMG / 2 |
Bezogen auf das Beispiel oben: "Tiere und Pflanzen in Korallenriffs": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini.
MMG = 3,2 + 3,5 + 9,9 = 16,6 |
MAG = MMG / 2 = 16,6 / 2 = 8,3 |
Folglich werden erst alle Treffer angezeigt,
Aufgabe von Informationsspezialisten ist es, bei der Erstellung von Informationssystemen auszuprobieren, nach welchen Vorgaben jeweils gewichtet werden soll. So wird man anders gewichten, je nachdem, ob man mehr Wert auf Recall oder auf Precision der Ergebnisse legt.
Quelle für MAG und MGG (verkürzt): Walker; Jones, Kap. 6.5.3., S. 80-82
Der Recall eines Information Retrieval Systems ist begrenzt, es werden in den seltensten alle relevanten Dokumente für eine Suchanfrage gefunden. Die Entwickler von Retrieval Systemen experimentieren schon seit vielen Jahren mit unterschiedlichen Verfahren, wie sich der Recall im Verlauf einer Recherche erhöhnen lässt.
Eine Möglichkeit, den Recall zu erhöhen besteht natürlich immer darin, eine allgemeinere Suchanfrage zu formulieren. Auf diese Weise wird die Ergebnismenge zwar erhöht, es kommen jedoch auch viele Ergebnisse mit niedriger Relevanz hinzu. Eine Verbesserung des Retrievalergebnisses lässt sich möglicherweise auch durch eine Modifikation der Recherche durch andere Suchbegriffe erreichen, aber auch hier gibt es keine Sicherheit, dass sich die gewünschten Ergebnisse einstellen.
Durch die Einführung von Relevanz-Feedback versucht man, dem Nutzer die Möglichkeit zu geben, das Rechercheergebnis im Verlauf des Suchprozesses zu verfeinern.
Bei den Verfahren, die wir bisher kennen gelernt haben, sind wir davon ausgegangen,
Dem Relevanz Feedback liegt hingegen die Annahme zugrunde, dass es wahrscheinlich ist, dass einzelne Wörter im Zusammenhang mit bestimmten Wörtern häufiger auftreten als mit anderen. Wenn Sie beispielsweise in googel die Kombination Schneemann und Winter suchen, erhalten Sie über 77.000 Treffer, wenn Sie hingegen nach Schneemann und Sommer suchen, erhalten sie weniger als 60.000 Treffer.
Genau auf diesen Überlegungen basiert der Ansatz der dynamischen Gewichtung von Suchbegriffen (Query Reweighting). Es wird die Wahrscheinlichkeit mit einbezogen, mit der ein Begriff in relevanten und nicht relevanten Dokumenten auftritt. Die Wahrscheinlichkeiten werden aus den Anfrageergebnissen ermittelt und für die Gewichtung neuerlicher Anfragen herangezogen, man nutzt also die Rückmeldung des Systems zu einer weiteren Verbesserung des Resultates.
Beispiel:
Mario Schreibers Recherche zum Thema Ozonloch und Erderwärmung könnte auf diese Weise verfeinert werden.
(relevante Treffer mit Treibhauseffekt) / (relevante Treffer ohne Treibhauseffekt)
(Nieten mit Treibhauseffekt) / (Nieten ohne Treibhauseffekt) |
7 / 1
2 / 10 |
Die Wahrscheinlichkeit, dass Treibhauseffekt in relevanten Treffern vorkommt, liegt also bei 35.
(relevante Treffer mit Gewächshaus) / (relevante Treffer ohne Gewächshaus)
(Nieten mit Gewächshaus) / (Nieten ohne Gewächshaus) |
2 / 6
5 / 7 |
Die Wahrscheinlichkeit, dass Gewächshaus in relvanten Treffern vorkommt, liegt nur bei 0,47.
Das System könnte jetzt bei einer erneuten Recherche Treffer, in denen Treibhauseffekt vorkommt, höher gewichten.
Stand: 5. Juli 2005