In den bisherigen Lerneinheiten sind wir davon ausgegangen, dass die Bestimmung der Relevanz eines Indexterms für ein Dokument bei der Erschließung vergenommen wird. Suchmaschinen nehmen tatsächlich das Relevanz Ranking erst 'on the fly' im Verlauf des Rechercheprozesses vor. Hierfür werden in der Praxis komplexe Ranking-Formeln angewandt. Das Prinzip des Relevanz Ranking lässt sich aber in der folgenden einfachen Formel demonstrieren. Schauen Sie sich dazu folgendes Beispiel an.
Gesucht sind Dokumente zum Thema "Tiere und Pflanzen in Korallenriffs" in einer großen biologischen Datenbank mit 1.000.000 Datensätzen.
Die Datenbank enthält
Zunächst wird eine vereinfachte Formel zur Berechnung der Gewichte der einzelnen Suchtermini angewandt. Die Formel (IDF) kennen Sie bereits aus der Lerneinheit "Statistische Verfahren".
G = log2(N/n) |
In diesem Beispiel:
Für jeden Datensatz, der einen oder mehrere der Suchtermini enthält, werden folgende Schwellenwerte berechnet:
MAG = MMG |
a) 2 häufig vorkommende Termini (z.B. Tiere und Pflanzen)
MAG = Summe der Gewichte beider Suchtermini |
b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. 'Tiere im Korallenriff')
MAG = Gewicht des seltenen Suchterminus |
c) 2 selten vorkommende Suchtermini (z.B. 'Korallenriff und Seeanemone')
MAG = Gewicht von einem der beiden Suchtermini |
MAG = MMG / 2 |
Bezogen auf das Beispiel oben: "Tiere und Pflanzen in Korallenriffs": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini.
MMG = (Tiere) 4,6 + (Pflanzen) 5,1 + (Korallenriff) 14,2 = 23,9 |
MAG = MMG / 2 = 23,9 / 2 = 11,9 |
Folglich werden erst alle Treffer angezeigt,
Aufgabe von Informationsspezialisten ist es, bei der Erstellung von Informationssystemen auszuprobieren, nach welchen Vorgaben jeweils gewichtet werden soll. So wird man anders gewichten, je nachdem, ob man mehr Wert auf Recall oder auf Precision der Ergebnisse legt. Das von der deutschen Forschungsgemeinschaft (DFG) geförderte Projekt LIBRANK, das Dirk Lewandowski (HAW) gemeinsam mit der Zentralbibliothek Wirtschaft (ZWB) durchführt, untersucht, welche Rankingfaktoren besonders geeignet sind zur Anwendung n Bibliothekskatalogen.
(Quelle: Stephen Walker; Richard M. Jones: Improving subject retrieval in online catalogues 1. - London : The British Library Board, 1987. - (British Library research paper ; 24). - Kap. 6.5.3., S. 80-82)
Der Recall eines Information Retrieval Systems ist begrenzt, es werden in den seltensten alle relevanten Dokumente für eine Suchanfrage gefunden. Die Entwickler von Retrieval Systemen experimentieren schon seit vielen Jahren mit unterschiedlichen Verfahren, wie sich der Recall im Verlauf einer Recherche erhöhnen lässt.
Eine Möglichkeit, den Recall zu erhöhen, besteht natürlich immer darin, eine allgemeinere Suchanfrage zu formulieren. Auf diese Weise wird die Ergebnismenge zwar erhöht, es kommen jedoch auch viele Ergebnisse mit niedriger Relevanz hinzu. Eine Verbesserung des Retrievalergebnisses lässt sich möglicherweise auch durch eine Modifikation der Recherche durch andere Suchbegriffe erreichen, aber auch hier gibt es keine Sicherheit, dass sich die gewünschten Ergebnisse einstellen.
Durch die Einführung von Relevanz-Feedback versucht man, dem Nutzer die Möglichkeit zu geben, das Rechercheergebnis im Verlauf des Suchprozesses zu verfeinern.
Bei den Verfahren, die wir bisher kennen gelernt haben, sind wir davon ausgegangen,
Dem Relevanz Feedback liegt die Annahme zugrunde, dass es wahrscheinlich ist, dass einzelne Wörter im Zusammenhang mit bestimmten Wörtern häufiger auftreten als mit anderen. Wenn Sie beispielsweise in googel die Kombination Schneemann und Winter suchen, erhalten Sie über 530.000 Treffer (Stand: 2014-12-01), wenn Sie hingegen nach Schneemann und Sommer suchen, erhalten sie 411.000 Treffer (Stand: 2014-12-01).
Genau auf diesen Überlegungen basiert der Ansatz der dynamischen Gewichtung von Suchbegriffen (Query Reweighting). Es wird die Wahrscheinlichkeit mit einbezogen, mit der ein Begriff in relevanten und nicht relevanten Dokumenten auftritt. Die Wahrscheinlichkeiten werden aus den Anfrageergebnissen ermittelt und für die Gewichtung neuerlicher Anfragen herangezogen, man nutzt also die Rückmeldung des Systems zu einer weiteren Verbesserung des Resultates.
Beispiel:
Mario Schreibers Recherche zum Thema Ozonloch und Erderwärmung könnte auf diese Weise verfeinert werden.
6 relevante mit Treibhaus / 2 relevante Treffer (von den 8) ohne Treibhaus
2 von 12 Nieten mit Treibhaus /10 von 12 Nieten ohne Treibhaus |
Die Wahrscheinlichkeit, dass Treibhauseffekt in relevanten Treffern vorkommt, liegt also bei 3/0,2 = 15.
Dazu im Vergleich: Gewächshaus kommt in 3 relevanten Dokumenten vor und in 5 relevanten Dokumenten nicht vor. Hingegen kommt Gewächshaus in 8 nicht relevanten Dokumenten vor, aber nur 4 der nicht relevanten Dokumenten enthalten das Wort Gewächshaus nicht.
3/5
8/4 |
Die Wahrscheinlichkeit, dass Gewächshaus in relvanten Treffern vorkommt, liegt also nur bei 0,6 / 2 = 0,3.
Das System könnte jetzt bei einer erneuten Recherche Treffer, in denen Treibhauseffekt vorkommt, höher gewichten (nämlich mit 15) als Treffer, in denen Gewächshaus vorkommt.
Stand: 01. Dezember 2014