Relevanz Ranking
Relevanz Feedback

Relevanz Ranking

In den bisherigen Lerneinheiten sind wir davon ausgegangen, dass die Bestimmung der Relevanz eines Indexterms für ein Dokument bei der Erschließung vergenommen wird. Suchmaschinen nehmen tatsächlich das Relevanz Ranking erst 'on the fly' im Verlauf des Rechercheprozesses vor. Hierfür werden in der Praxis komplexe Ranking-Formeln angewandt. Das Prinzip des Relevanz Ranking lässt sich aber in der folgenden einfachen Formel demonstrieren. Schauen Sie sich dazu folgendes Beispiel an.

Gesucht sind Dokumente zum Thema "Tiere und Pflanzen in Korallenriffs" in einer großen biologischen Datenbank mit 1.000.000 Datensätzen.

Die Datenbank enthält

40.000 Datensätze mit dem Wort 'Tiere'
30.000 Datensätze mit dem Wort 'Pflanzen'
50 Datensätze mit dem Wort 'Korallenriffs'
10 Datensätze mit Wort 'Seeanemone'

Zunächst wird eine vereinfachte Formel zur Berechnung der Gewichte der einzelnen Suchtermini angewandt. Die Formel (IDF) kennen Sie bereits aus der Lerneinheit "Statistische Verfahren".

G = log2(N/n)

N = eine Konstante, die mindestens so groß ist wie die Anzahl der Treffer für das häufigste Wort in der Datenbank und nicht größer als die Anzahl aller in der Datenbank enthaltenen Datensätze: also 1.000.000
n = Anzahl der Treffer für den jeweiligen Suchterminus

In diesem Beispiel:

Tiere: log2(1.000.000 / 40.000) = log 2 (25) = 4,6 (abgerundet)
Pflanzen: log2(1.000.000 / 30.000) = 5,1 (abgerundet)
Korallenriff: log2(1.000.000 / 50) = 14,2 (abgerundet)
Seeanemone: log2( 1.000.000 / 10) = 16,6 (abgerundet)

Für jeden Datensatz, der einen oder mehrere der Suchtermini enthält, werden folgende Schwellenwerte berechnet:

MAG = minimal akzeptable Gewichtung. Diesen Schwellenwert muss der Datensatz überschreiten, um überhaupt für die Recherche als relevant angezeigt zu werden.
MMG = maximal mögliche Gewichtung - kann ein Datensatz erhalten, wenn alle Suchtermini in ihm enthalten sind.

Formeln für die Gewichtung der Datensätze

Für Suchfomulierungen mit nur 1 Suchterminus:

MAG = MMG

Für Suchfomulierungen mit genau 2 Suchtermini:

a) 2 häufig vorkommende Termini (z.B. Tiere und Pflanzen)

MAG = Summe der Gewichte beider Suchtermini

b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. 'Tiere im Korallenriff')

MAG = Gewicht des seltenen Suchterminus

c) 2 selten vorkommende Suchtermini (z.B. 'Korallenriff und Seeanemone')

MAG = Gewicht von einem der beiden Suchtermini

Für Suchformulierungen mit > 2 Suchtermini

MAG = MMG / 2

Bezogen auf das Beispiel oben: "Tiere und Pflanzen in Korallenriffs": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini.

MMG = (Tiere) 4,6 + (Pflanzen) 5,1 + (Korallenriff) 14,2 = 23,9

MAG = MMG / 2 = 23,9 / 2 = 11,9

Folglich werden erst alle Treffer angezeigt,

die alle Suchtermini enthalten (MMG)
dann alle Datensätze mit 'Korallenriffs + Pflanzen' (Gewichtung = 19,4)
dann Datensätze mit 'Korallenriff + Tiere' (Gewichtung = 18,8)
dann alle Datensätze mit 'Korallenriff' (Gewichtung = 14,2).
Nicht mehr angezeigt werden Datensätze mit einer Gewichtung unter 11,9 (MAG), also alle Datensätze mit 'Tiere + Pflanzen' (4,6 + 5,1 = 9,7)

Aufgabe von Informationsspezialisten ist es, bei der Erstellung von Informationssystemen auszuprobieren, nach welchen Vorgaben jeweils gewichtet werden soll. So wird man anders gewichten, je nachdem, ob man mehr Wert auf Recall oder auf Precision der Ergebnisse legt. Das von der deutschen Forschungsgemeinschaft (DFG) geförderte Projekt LIBRANK, das Dirk Lewandowski (HAW) gemeinsam mit der Zentralbibliothek Wirtschaft (ZWB) durchführt, untersucht, welche Rankingfaktoren besonders geeignet sind zur Anwendung n Bibliothekskatalogen.

(Quelle: Stephen Walker; Richard M. Jones: Improving subject retrieval in online catalogues 1. - London : The British Library Board, 1987. - (British Library research paper ; 24). - Kap. 6.5.3., S. 80-82)

Relevanz Feedback

Der Recall eines Information Retrieval Systems ist begrenzt, es werden in den seltensten alle relevanten Dokumente für eine Suchanfrage gefunden. Die Entwickler von Retrieval Systemen experimentieren schon seit vielen Jahren mit unterschiedlichen Verfahren, wie sich der Recall im Verlauf einer Recherche erhöhnen lässt.

Eine Möglichkeit, den Recall zu erhöhen, besteht natürlich immer darin, eine allgemeinere Suchanfrage zu formulieren. Auf diese Weise wird die Ergebnismenge zwar erhöht, es kommen jedoch auch viele Ergebnisse mit niedriger Relevanz hinzu. Eine Verbesserung des Retrievalergebnisses lässt sich möglicherweise auch durch eine Modifikation der Recherche durch andere Suchbegriffe erreichen, aber auch hier gibt es keine Sicherheit, dass sich die gewünschten Ergebnisse einstellen.

Durch die Einführung von Relevanz-Feedback versucht man, dem Nutzer die Möglichkeit zu geben, das Rechercheergebnis im Verlauf des Suchprozesses zu verfeinern.

Bei den Verfahren, die wir bisher kennen gelernt haben, sind wir davon ausgegangen,

dass die Wahrscheinlichkeit, dass ein Wort in einem Dokument vorkommt, für alle Wörter gleich hoch ist,
Das Auftreten von Wörtern in einem Text völlig unabhängig voneinander ist.

Dem Relevanz Feedback liegt die Annahme zugrunde, dass es wahrscheinlich ist, dass einzelne Wörter im Zusammenhang mit bestimmten Wörtern häufiger auftreten als mit anderen. Wenn Sie beispielsweise in googel die Kombination Schneemann und Winter suchen, erhalten Sie über 530.000 Treffer (Stand: 2014-12-01), wenn Sie hingegen nach Schneemann und Sommer suchen, erhalten sie 411.000 Treffer (Stand: 2014-12-01).

Genau auf diesen Überlegungen basiert der Ansatz der dynamischen Gewichtung von Suchbegriffen (Query Reweighting). Es wird die Wahrscheinlichkeit mit einbezogen, mit der ein Begriff in relevanten und nicht relevanten Dokumenten auftritt. Die Wahrscheinlichkeiten werden aus den Anfrageergebnissen ermittelt und für die Gewichtung neuerlicher Anfragen herangezogen, man nutzt also die Rückmeldung des Systems zu einer weiteren Verbesserung des Resultates.

Beispiel:
Mario Schreibers Recherche zum Thema Ozonloch und Erderwärmung könnte auf diese Weise verfeinert werden.

Zunächst recherchiert er mit den Suchbegriffen Ozonloch und Erderwärmung.
Er schaut sich von den über 250 Treffern die ersten 20 an und wählt die relevanten Treffer aus.
Das System untersucht von diesen 20 angesehenen Treffern die relevanten und nicht relevanten Treffer auf das signifikante gemeinsame Auftreten häufiger Wörter.
Nehmen wir an, Schreiber hat 8 Treffer als relevant eingestuft und 12 als nicht relevant. In 6 der relevanten Treffer kommt das Wort Treibhauseffekt vor, jedoch nur in 2 der nicht relevanten Treffer. Das Wort Gewächshaus kommt hingegen nur in 3 relevanten Treffern vor hingegen in 8 nicht relevanten Treffern
Jetzt lässt sich die Wahrscheinlichkeit errechnen, mit der Treibhauseffekt in relevanten Treffern vorkommt. Dazu wird die Anzahl relevanter Treffer mit Treibhauseffekt durch die Anzahl relevanter Treffer ohne Treibhauseffekt geteilt. Anschließend wird die Anzahl der Nieten mit Treibhauseffekt durch die Anzahl der Nieten ohne Treibhauseffekt geteilt und zu dem ersten Ergebnis in Beziehung gesetzt.

6 relevante mit Treibhaus / 2 relevante Treffer (von den 8) ohne Treibhaus
2 von 12 Nieten mit Treibhaus /10 von 12 Nieten ohne Treibhaus

Die Wahrscheinlichkeit, dass Treibhauseffekt in relevanten Treffern vorkommt, liegt also bei 3/0,2 = 15.

Dazu im Vergleich: Gewächshaus kommt in 3 relevanten Dokumenten vor und in 5 relevanten Dokumenten nicht vor. Hingegen kommt Gewächshaus in 8 nicht relevanten Dokumenten vor, aber nur 4 der nicht relevanten Dokumenten enthalten das Wort Gewächshaus nicht.

3/5
8/4

Die Wahrscheinlichkeit, dass Gewächshaus in relvanten Treffern vorkommt, liegt also nur bei 0,6 / 2 = 0,3.

Das System könnte jetzt bei einer erneuten Recherche Treffer, in denen Treibhauseffekt vorkommt, höher gewichten (nämlich mit 15) als Treffer, in denen Gewächshaus vorkommt.

Stand: 01. Dezember 2014

< Als Textdatei ansehen/ausdrucken >
< Zum Seitenanfang >

STEP 1 - Einführung | STEP 2 - Initialaufgaben | STEP 3 - Lektüre | STEP 4 - Übung 1 | STEP 5 - Übung 2

Relevanz Ranking

Formeln für die Gewichtung der Datensätze

Relevanz Feedback

STEP 1

STEP 2

STEP 4

STEP 5

LE 08: Retrievalmodelle

LERNEINHEITEN (LE)

ZUSAMMENSCHAU