Die Ähnlichkeit zwischen zwei Objekten wird als Funktion der Anzahl der Eigenschaften berechnet, die beiden Objekten gemeinsam sind. Eine Gemeinsamkeit von Dokumenten kann die Zuordnung von Deskriptoren zu diesen Dokumenten sein. Häufig werden auch Hyperlink-Verweise, das Vorkommen bestimmter Wörter im URL oder im Titel zur Ermittlung der Ähnlichkeit herangezogen.
Die Zuordnung von Deskriptoren zu einem Dokument lässt sich gut in Form einer Tabelle vorstellen. In ihrer einfachsten, binären, Form kann man in einer solchen Tabelle festhalten, ob ein Dokument einen Deskriptor enthält oder nicht.
Deskriptor | Dok 1 | Dok 2 | Dok 3 | Dok 4 |
Bundeskanzler | 0 | 1 | 0 | 1 |
Birne | 1 | 1 | 1 | 1 |
Deutsche Einheit | 1 | 1 | 0 | 1 |
Euro | 1 | 0 | 1 | 1 |
Helmut Kohl | 1 | 0 | 1 | 1 |
Das Dokument 1 wird durch die in der Spalte Dok 1 angefügten Deskriptoren repräsentiert. Diese Spalte kann man auch in Form eines Vektors mathematisch darstellen. Die Ähnlichkeit zwischen zwei Vektoren, in unserem Fall also Repräsentanten für zwei Dokumente, kann man ermitteln, wenn man die beiden Vektoren miteinander multipliziert. Für die Multiplikation wird jeder Wert innerhalb eines Vektors mit dem entsprechenden Wert des anderen Vektors multipliziert. Die Werte werden also paarweise multipliziert. Es können nur Vektoren mit derselben Anzahl Dimensionen miteinander multipliziert werden. Als Ergebnis entsteht ein neuer Vektor. Die einzelnen Werte innerhalb des Vektors können anschließend zu einem Ergebnis addiert werden. Wir können jetzt ausrechnen, ob Dokument 4 oder Dokument 2 eine größere Ähnlichkeit zu Dokument 1 aufweist, indem wir die Dokumente paarweise miteinander multiplizieren.
Das Skalarprodukt von Dok 1 und Dok 4 errechnet man also nach folgender Formel:
4 = 0*1 + 1*1 + 1*1 + 1*1 +1*1
Aus dem Ergebnis können wir schließen, dass Dok 1 und Dok 4 sich ähnlicher sind als Dok 1 und Dok 2.
Die gängige mathematische Formeldarstellung für dieses sogenannte Skalarprodukt sieht so aus:
Dieses Wissen reicht bereits aus, um mit Vektoren rechnen zu können und auf diese Weise Änhlichkeiten zwischen Dokumenten zu errechnen.
Diese Ähnlichkeitsfunktion wird in der Fachliteratur als Vektorraummodell bezeichnet.
Mit Vektoren wird vor allem in der Physik gearbeitet. Es gibt physikalische Größen, wie z. B. die Temperatur, die sich durch eine Zahl ausdrücken lassen. Andere Größen bestehen aus mehreren Werten: So hat die auf einen Körper ausgeübte Kraft eine Richtung und eine Stärke. Solche Größen nennt man Vektoren. Ein Vektor kann aus beliebig vielen Merkmalen bestehen.
Auch die in den Spalten der Dokument-Deskriptor-Matrix festgehaltenen Dokumente lassen sich mathematisch als Vektoren darstellen. Die Deskriptoren bilden die Dimensionen des Vektorraums. Wenn für ein Dokument 5 Deskriptoren bestimmt werden, besitzt der Vektor des Dokuments 5 Dimensionen (n=5). 5 Dimensionen sind für uns graphisch nicht mehr umsetzbar. In der folgenden Präsentation oder in den aufgeführten Links können Sie sich einige Beispiele für Visulisierungen des Modells ansehen. Aus Gründen der Darstellbarkeit müssen sich die Visualisierungen auf drei Dimensionen beschränken.
Präsentation zum Vektorraummodell
Externe Links zu Visalisierungen des Vektorraummodells
Stand: 1. Juni 2005