Das Clustering von Dokumenten basiert auf der Ermittlung von Ähnlichkeit bzw. Differenz von Dokumenten nach vorgegebenen Merkmalen. Eine einfache Form der Bestimmung von Merkmalen ist das Vorkommen gemeinsamer Deskriptoren. In der Praxis berücksichtigen die Systeme viele zusätzliche Eigenschaften wie Wortlänge, Distanz von Wörtern usw. Der Einfachheit halber gehen wir für die weiteren Überlegungen von automatisch (z. B. auf der Grundlage der Termfrequenz (tf)) oder intellektuell ermittelten Deskriptoren aus.
Schauen wir uns dazu zunächst nocheinmal die Tabelle aus LE 9 an. Diesmal allerdings nicht im binären Werten (0 oder 1), sondern mit Werten, die sich aus tf*idf ergeben.Schlagwort | Dok 1 | Dok 2 | Dok 3 | Dok 4 |
Student | 0,5 | 1 | 0 | 1 |
Protest | 1 | 0,5 | 2 | 1 |
Sparmaßnahme | 1 | 3 | 0 | 1 |
Sternmarsch | 1 | 0 | 1,5 | 1 |
Senat | 2 | 0 | 1 | 2 |
Dok 1 | Dok 2 | Dok 3 | Dok 4 | Dok x | |
Dok 1 | - | 4,0 | 4,5 | 7,5 | ??? |
Dok 2 | 4,0 | - | 1,0 | 4,5 | ??? |
Dok 3 | 4,5 | 1,0 | - | 4,5 | ??? |
Dok 4 | 7,5 | 4,5 | 4,5 | - | ??? |
Dok x | ??? | ??? | ??? | ??? | - |
Wenn wir nur die vier eingetragenen Dokumente vergleichen, erhalten wir bei einem Schwellenwert von 7,5 ein Cluster, das aus den Dokumenten 1 und 4 besteht. Bei einem Schwellenwert von 4,5 würden alle 4 Dokumente in das Cluster aufgenommen, obwohl Dokument 2 und 3 nur wenige Übereinstimmungen haben. In der Praxis würde man natürlich mit wesentlich mehr Dokumenten arbeiten und hätte nach diesem ersten Arbeitsschritt eine ganze Reihe von Clustern.
Diese Cluster würden folgendermaßen weiterverarbeitet. Für die Dokumente eines Clusters wird ein sogenannter Zentroidvektor ermittelt. Der Zentroidvektor ergibt sich aus dem Mittelwert aller Dokumentvektoren des Clusters. In der Tabelle sehen Sie, wie der Zentroidvektor für das Cluster aus den Dokumenten 1, 3 und 4, die durch die Vektoren "Studenten, Protest, Sparmaßnahmen, Demonstration, Senat", dargestellt werden, aussähe. Dieser Zentroidvektor repräsentiert jetzt die Klasse der drei aufgeführten Dokumente.
Studenten | Protest | Sparmaßnahmen | Demonstration | Senat | |
Vektor Dok 1 | 0,5 | 1 | 1 | 1 | 2 |
Vektor Dok 3 | 0 | 2 | 0 | 1,5 | 1 |
Vektor Dok 4 | 1 | 1 | 1 | 1 | 2 |
Zentroidvektor | 1,5/3 = 0,5 | 4/3 = 1,33 | 2/3 = 0,66 | 2,5/3 = 0,83 | 5/3 = 1,66 |
Wenn jetzt in der Datenbank ein neues Dokument mit den Deskriptoren Studenten, Protest, Sparmaßnahmen, Demonstration, Senat ergänzt wird, wird dieses nicht mit dem Vektor aller 4 Dokumente verglichen, sondern nur mit dem Zentroidvektor.
Auf diese Weise erhalten Sie eine Reihe disjunkter oder sich überschneidender Cluster, die allerdings noch keine Benennung haben. Verschiedene Verfahren der Benennung sind denkbar. Im einfachsten Fall werden der oder die am stärksten gewichteten Deskriptoren des Zentroidvektors als Benennung des Clusters ausgegeben.
Quelle: Salton, Gerard; McGill, Michael: Information Retrieval - Grundlegendes für Informationswissenschaftler. - Hamburg u. a.: Mc Graw-Hill Book Company Gmbh, 1987, S. 228-236.
In der Abbildung sehen Sie zwei Beispiele für Cluster zum Thema Studenten Protest Sparmaßnahmen Demonstration aus der Suchmaschine Carrot2. Je nachdem, in welchem Bestand (Web (links) oder Wiki (rechts)) Sie suchen, unterscheiden sich die Cluster und ihre Benennungen.
![]() |
![]() |
Abb.: Ausschnitt Clusterergebnisse carrot2. Suche nach Studenten Protest Sparmaßnahmen Demonstration im gesamten Web (links) oder in Wikis (rechts). - Stand: 27.06.13
Stand: 6. Juni 2018