Die DIN 31 623, Teil 1, Abschnitt 5 definiert Bewertungskriterien für Indexierungsergebnisse so (Zitate aus der Norm):
Indexierungsbreite | Indexierungsspezifität |
Die Indexierungsbreite gibt bezogen auf den fachlichen Inhalt eines Dokuments den Grad der Erschließung an; sie kommt in erster Annäherung in der Anzahl der vergebenen Deskriptoren oder Notationen zum Ausdruck. |
Die Indexierungsspezifität gibt an, wie allgemein oder wie spezifisch die vergebenen Deskriptoren oder Notationen bezogen auf den Dokumenteninhalt sind; sie kommt in erster Annäherung durch das hierarchische Niveau der Indexierungsbezeichnungen zum Ausdruck. |
Indexierungstiefe | Indexierungskonsistenz |
Indexierungstiefe ist eine Kombination von Indexierungsbreite und -spezifität und gibt die Genauigkeit der Wiedergabe des Dokumenteninhalts durch das Indexierungsergebnis an. Sie kommt in erster Annäherung durch die Anzahl der vergebenen Deskriptoren oder Notationen unter Berücksichtigung ihres hierarchischen Niveaus zum Ausdruck. Dies bedeutet, dass im konkreten Fall von zwei Indexierungsergebnissen des gleichen Dokuments mit gleicher Anzahl von Deskriptoren oder Notationen dasjenige tiefer ist, das die spezifischeren Bezeichnungen enthält. |
Indexierungskonsistenz ist das Maß der Übereinstimmung verschiedener Indexierungsergebnisse des gleichen Dokuments in derselben Dokumentationssprache. Sie kommt in erster Annäherung zum Ausdruck durch das Verhältnis der gemeinsam vergebenen Deskriptoren oder Notationen zur Gesamtzahl aller vergebenen Indexierungsbezeichnungen. |
Ein weiteres Bewertungskriterium, das die Norm nicht erwähnt, ist Zielgruppenorientierung: Zielgruppenorientierung bedeutet: Indexieren aus der Perspektive und für die Bedürfnisse einer bestimmten Nutzerschaft.
Die Qualität von Indexierungsergebnissen beeinflusst wesentlich die Qualität der Informationswiedergewinnung. Dabei werden zwei Größen unterschieden:
Um eine absolute Vergleichsgröße zu gewinnen, wird ein Einheitsmaß berechnet. Es hängt von dem individuellen Anliegen des Informationssuchenden ab, welche der beiden Größen, Recall oder Präzision, ihm wichtiger ist. Entsprechend kann die eine bzw. die andere Größe bei der Berechnung des Einheitsmaßes mehr oder weniger betont werden.
Zum besseren Verständnis sehen Sie sich bitte folgende Grafik für die Mengen A, B, C, D an:
A = Anzahl der relevanten Datensätze, die bei einer Recherche gefunden wurden
B = Anzahl der nicht relevanten Datensätze, die bei einer Recherche gefunden wurden
C = Anzahl der relevanten Datensätze, die bei einer Recherche nicht gefunden wurden
D = Anzahl der nicht relevanten Datensätze, die bei einer Recherche nicht gefunden wurden
Anteil der gefundenen Datensätze in Relation zu allen Datensätzen, d.h. wieviel % von den Datensätzen, die hätten gefunden werden müssen, wurden überhaupt gefunden?
Die Formel für die Berechnung von Recall ohne Prozentangabe ist entsprechend:
r = A / (A + C)
Anteil der gefundenen relevanten Datensätze in Relation zu allen Datensätzen, die gefunden wurden in %, d.h. wieviel von den gefundenen Datensätzen sind überhaupt nützlich?
p = Berechnung von Präzision
Die Formel für die Berechnung von Präzision ohne Prozentangabe ist entsprechend:
p = A / (A + B)
Beide Werte liegen also immer zwischen 0 und 100% bzw. zwischen 0 und 1:
Recall und Präzision können zu einem Einheitsmaß kombiniert werden: e= r x p. Je näher dieser Wert an 1 liegt, desto näher kommt er dem Ideal einer 100-prozentigen Recallrate bei gleichzeitig 100-prozentiger Präzisionsrate.
Bei dem Einheitsmaß kann man zusätzlich entweder dem Kriterium Recall oder dem Kriterium Präzision durch den Gewichtungsfaktor b ein höheres Gewicht einräumen. Setzt man z.B. ß = 2, legt man ein doppelt so großes Gewicht auf den Recall. Setzt man b = 0.5, legt man ein doppeltes Gewicht auf die Präzision im Information Retrieval.
e liegt hier auch zwischen 0 und 1. e = 0 ist der angestrebte Idealwert, nach dem alle relevanten und nur die relevanten Datensätze wiedergewonnen wurden. e = 1 bedeutet: Kein einziger relevanter Datensatz wurde gefunden.
b = Gewichtungsfaktor
r = Recall (nicht in %)
p = Präzision (nicht in %)
Quelle: Vereinfacht nach Grummann, S. 301
Stand: 1. März 2005