Die Qualität von Indexierungsergebnissen beeinflusst wesentlich die Qualität der Informationswiedergewinnung. Dabei werden zwei Größen unterschieden:
Um eine absolute Vergleichsgröße zu gewinnen, wird ein Einheitsmaß berechnet. Es hängt von dem individuellen Anliegen des Informationssuchenden ab, welche der beiden Größen, Recall oder Präzision, ihm wichtiger ist. Entsprechend kann die eine bzw. die andere Größe bei der Berechnung des Einheitsmaßes mehr oder weniger betont werden.
Zum besseren Verständnis sehen Sie sich bitte folgende Grafik für die Mengen A, B, C, D an:
A = Anzahl der relevanten Datensätze, die bei einer Recherche gefunden wurden
B = Anzahl der nicht relevanten Datensätze, die bei einer Recherche gefunden wurden
C = Anzahl der relevanten Datensätze, die bei einer Recherche nicht gefunden wurden
D = Anzahl der nicht relevanten Datensätze, die bei einer Recherche nicht gefunden wurden
Anteil der gefundenen Datensätze in Relation zu allen Datensätzen, d.h. wieviel % von den Datensätzen, die hätten gefunden werden müssen, wurden überhaupt gefunden?
Die Formel für die Berechnung von Recall ohne Prozentangabe ist entsprechend:
r = A / (A + C)
Anteil der gefundenen relevanten Datensätze in Relation zu allen Datensätzen, die gefunden wurden in %, d.h. wieviel von den gefundenen Datensätzen sind überhaupt nützlich?
p = Berechnung von Präzision
Die Formel für die Berechnung von Präzision ohne Prozentangabe ist entsprechend:
p = A / (A + B)
Recall und Präzision können zu einem Einheitsmaß kombiniert werden: e= r x p. Je näher dieser Wert an 1 liegt, desto näher kommt er dem Ideal einer 100-prozentigen Recallrate bei gleichzeitig 100-prozentiger Präzisionsrate.
Bei dem Einheitsmaß kann man zusätzlich entweder dem Kriterium Recall oder dem Kriterium Präzision durch den Gewichtungsfaktor b ein höheres Gewicht einräumen. Setzt man z.B. b = 2, legt man ein doppelt so großes Gewicht auf den Recall. Setzt man b = 0.5, legt man ein doppeltes Gewicht auf die Präzision im Information Retrieval.
e liegt hier auch zwischen 0 und 1. e = 0 ist der angestrebte Idealwert, nach dem alle relevanten und nur die relevanten Datensätze wiedergewonnen wurden. e = 1 bedeutet: Kein einziger relevanter Datensatz wurde gefunden.
b = Gewichtungsfaktor
r = Recall (nicht in %)
p = Präzision (nicht in %)
Quelle: Vereinfacht nach Grummann, S. 301
Die Formeldarstellung für das ZIPFSCHE GESETZ lautet: C = R x A
R = Rang eines Wortes in Häufigkeitsliste (bezogen auf einen Text)
A = Anzahl eines Wortes im Text
C = Konstante
Die Häufigkeit eines Wortes in einem Dokument ist also ein Indikator dafür, wie repräsentativ es für den Inhalt des Gesamtdokuments ist. Eine Maßeinheit für das Gewicht eines Wortes in einem Dokument ist die relative Worthäufigkeit (Termfrequenz = TF). Die Termfrequenz (= TF) lässt sich mit einer einfachen Formel errechnen:
TF(td)= Häufigkeit eines Wortes im Dokument  |
Abkürzungen:
t = Term
d = Dokument
TF = Termfrequenz
Schauen Sie sich an folgenden Beispielen an, was die Ermittlung der relativen Worthäufigkeit bewirkt.
Beispiel 1:
Beispiel 2:
|
Verfeinerung der Formel:
Bei langen Texten erhält man also Werte mit sehr vielen Nullen hinter dem Komma. Um einen engeren Ergebnisbereich für die ermittelten relativen Häufigkeiten zu erhalten, arbeitet man mit logarithmischen Werten. Damit kurze Texte nicht überproportional ins Gewicht fallen, wird zudem im Zähler 1 addiert.
Zur Erinnerung an den Mathematikunterricht:
Logarithmus auf der Basis 2 (Logarithmus dualis): Man nennt die Zahl, mit der man 2 potenzieren muss, damit man 16 erhält, log2 von 16 = 4.
In einem Tabellenkalkulationsprogramm wie Excel finden Sie eine eigene Funktion für die Errechnung des Logarithmus dualis vor.
Termgewicht = log2 (Häufigkeit von t in d + 1)
|
Ergebnisse nach der neuen Formel:
Beispiel 1:
= log2 (5 + 1)/log 2 196 = 0,34
Beispiel 2:
= log 2 (7 +1) /log 2 50.673 = 0,19
Das Relevanz Ranking lässt sich nach einer einfachen Formel berechnen; natürlich wird in der Praxis mit komplexeren Formeln experimentiert. Schauen Sie sich dazu folgendes Beispiel an.
Gesucht sind Dokumente zum Thema "Tiere und Pflanzen in Korallenriffs" in einer großen biologischen Datenbank mit 1.000.000 Datensätzen.
Die Datenbank enthält
In dem folgenden Beispiel wurde mit dem sogenannten natürlichen Logarithmus (= zur Basis 2,718..) gearbeitet. Auf dem Taschenrechner die Taste ln.
G = log(N/n) |
In diesem Beispiel:
Für jeden Datensatz, der einen oder mehrere der Suchtermini enthält, werden folgende Schwellenwerte berechnet:
MAG = MMG |
a) 2 häufig vorkommende Termini (z.B. Tiere von Pflanzen)
MAG = Summe der Gewichte beider Suchtermini |
b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. 'Tiere im Korallenriff')
MAG = Gewicht des seltenen Suchterminus |
c) 2 selten vorkommende Suchtermini (z.B. 'Korallenriff und Seeanemone')
MAG = Gewicht von einem der beiden Suchtermini |
MAG = MMG / 2 |
Bezogen auf das Beispiel oben: "Tiere und Pflanzen in Korallenriffs": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini.
MMG = 3,2 + 3,5 + 9,9 = 16,6 |
MAG = MMG / 2 = 16,6 / 2 = 8,3 |
Folglich werden erst alle Treffer angezeigt,
Aufgabe von Informationsspezialisten ist es, bei der Erstellung von Informationssystemen auszuprobieren, nach welchen Vorgaben jeweils gewichtet werden soll. So wird man anders gewichten, je nachdem, ob man mehr Wert auf Recall oder auf Precision der Ergebnisse legt.
(Quelle: Stephen Walker; Richard M. Jones: Improving subject retrieval in online catalogues 1. - London : The British Library Board, 1987. - (British Library research paper ; 24). - Kap. 6.5.3., S. 80-82)
Die Ähnlichkeit zwischen zwei Objekten wird als Funktion der Anzahl der Eigenschaften berechnet, die beiden Objekten gemeinsam sind. Eine Gemeinsamkeit von Dokumenten kann die Zuordnung von Deskriptoren zu diesen Dokumenten sein. Häufig werden auch Hyperlink-Verweise, das Vorkommen bestimmter Wörter im URL oder im Titel zur Ermittlung der Ähnlichkeit herangezogen.
Die Zuordnung von Deskriptoren zu einem Dokument lässt sich gut in Form einer Tabelle vorstellen. In ihrer einfachsten, binären, Form kann man in einer solchen Tabelle festhalten, ob ein Dokument einen Deskriptor enthält oder nicht.
Deskriptor | Dok 1 | Dok 2 | Dok 3 | Dok 4 |
Bundeskanzler | 0 | 1 | 0 | 1 |
Birne | 1 | 1 | 1 | 1 |
Deutsche Einheit | 1 | 1 | 0 | 1 |
Euro | 1 | 0 | 1 | 1 |
Helmut Kohl | 1 | 0 | 1 | 1 |
Das Dokument 1 wird durch die in der Spalte Dok 1 angefügten Deskriptoren repräsentiert. Diese Spalte kann man auch in Form eines Vektors mathematisch darstellen. Die Ähnlichkeit zwischen zwei Vektoren, in unserem Fall also Repräsentanten für zwei Dokumente, kann man ermitteln, wenn man die beiden Vektoren miteinander multipliziert. Für die Multiplikation wird jeder Wert innerhalb eines Vektors mit dem entsprechenden Wert des anderen Vektors multipliziert. Die Werte werden also paarweise multipliziert. Es können nur Vektoren mit derselben Anzahl Dimensionen miteinander multipliziert werden. Als Ergebnis entsteht ein neuer Vektor. Die einzelnen Werte innerhalb des Vektors können anschließend zu einem Ergebnis addiert werden. Wir können jetzt ausrechnen, ob Dokument 4 oder Dokument 2 eine größere Ähnlichkeit zu Dokument 1 aufweist, indem wir die Dokumente paarweise miteinander multiplizieren.
Das Skalarprodukt von Dok 1 und Dok 4 errechnet man also nach folgender Formel:
4 = 0*1 + 1*1 + 1*1 + 1*1 +1*1
Aus dem Ergebnis können wir schließen, dass Dok 1 und Dok 4 sich ähnlicher sind als Dok 1 und Dok 2.
Die gängige mathematische Formeldarstellung für dieses sogenannte Skalarprodukt sieht so aus:
|
Dieses Wissen reicht bereits aus, um mit Vektoren rechnen zu können und auf diese Weise Änhlichkeiten zwischen Dokumenten zu errechnen.
Diese Ähnlichkeitsfunktion wird in der Fachliteratur als Vektorraummodell bezeichnet.
Mit Vektoren wird vor allem in der Physik gearbeitet. Es gibt physikalische Größen, wie z. B. die Temperatur, die sich durch eine Zahl ausdrücken lassen. Andere Größen bestehen aus mehreren Werten: So hat die auf einen Körper ausgeübte Kraft eine Richtung und eine Stärke. Solche Größen nennt man Vektoren. Ein Vektor kann aus beliebig vielen Merkmalen bestehen.
Auch die in den Spalten der Dokument-Deskriptor-Matrix festgehaltenen Dokumente lassen sich mathematisch als Vektoren darstellen. Die Deskriptoren bilden die Dimensionen des Vektorraums. Wenn für ein Dokument 5 Deskriptoren bestimmt werden, besitzt der Vektor des Dokuments 5 Dimensionen (n=5). 5 Dimensionen sind für uns graphisch nicht mehr umsetzbar. In der folgenden Präsentation oder in den aufgeführten Links können Sie sich einige Beispiele für Visulisierungen des Modells ansehen. Aus Gründen der Darstellbarkeit müssen sich die Visualisierungen auf drei Dimensionen beschränken.
Stand: 04. April 2011