Schritt 1 |
Schritt 2 |
Schritt 3 |
Schritt 4 |
Schritt 5 |
||||
|
|
|
|
|
||||
Ähnlichkeit |
Die Dokument-Deskriptor-Matrix
Die Ähnlichkeit zwischen zwei Objekten wird als Funktion der Zahl der Eigenschaften, die beiden Objekten gemeinsam sind, berechnet. Eine Gemeinsamkeit von Dokumenten kann die Zuordnung von Deskriptoren zu diesen Dokumenten sein. Diese Zuordnung lässt sich gut in Form einer Tabelle vorstellen. In ihrer einfachsten, binären, Form könnte man in dieser Tabelle festhalten, ob ein Dokument einen Deskriptor enthält oder nicht.
Deskriptor | Dok 1 | Dok 2 | Dok 3 | Dok 4 |
Bundeskanzler | 0 | 1 | 0 | 1 |
Birne | 1 | 1 | 1 | 1 |
Deutsche Einheit | 1 | 1 | 0 | 1 |
Euro | 1 | 0 | 1 | 1 |
Helmut Kohl | 1 | 0 | 1 | 1 |
Das Dokument 1 wird durch die in der Spalte Dok 1 angefügten Deskriptoren repräsentiert. Diese Spalte kann man auch in Form eines Vektors mathematisch darstellen. Die Ähnlichkeit zwischen zwei Vektoren, in unserem Fall also zwei Dokumenten, kann man ermitteln, wenn man die beiden Vektoren miteinander multipliziert. Für die Multiplikation wird jeder Wert innerhalb eines Vektors mit dem entsprechenden Wert des anderen Vektors multipliziert. Die Werte werden paarweise multipliziert. Es können also nur Vektoren mit derselben Anzahl Dimensionen miteinander multipliziert werden. Als Ergebnis entsteht ein neuer Vektor. Die einzelnen Werte innerhalb des Vektors können zu einem Ergebnis addiert werden. Wir können jetzt ausrechnen, ob Dokument 4 oder Dokument 2 eine größere Ähnlichkeit zu Dokument 1 aufweist.
Die gängige Formeldarstellung für dieses sogenannte Skalarprodukt sieht so aus:
Das Skalarprodukt von Dok 1 und Dok 4 errechnet man also nach folgender Formel:
4 = 0*1 + 1*1 + 1*1 + 1*1 +1*1
Dieses Wissen reicht bereits aus, um mit Vektoren rechnen zu können und auf diese Weise Änhlichkeiten zwischen Dokumenten zu errechnen. Wie das funktioniert, können Sie in der Übung ausprobieren.
Im Input zum Vektorraummodell erfahren Sie etwas über die mathematischen Hintergründe des Modells.
weiter: Übung |
Stand: 20. August 2003