Clustering und Dokumentklassifikation
23.06.05
Bei WissOrg wird in der Dokumentationsabteilung weiterhin eine intellektuelle Zuordnung der eingehenden Dokumente zur ’hauseigenen’ Klassifikation vorgenommen. Es erfolgen dort Überlegungen, wie eine automatische Zuordnung der Dokumente zu dieser Klassifikation funktionieren könnte. Anhand der weltweit in der Pressedokumentation eingesetzten IPCT News Codes Klassifikation sollten Funktionsweise und Schwierigkeiten einer solchen automatischen Zuordnung erörtert werden.
Eine Klasse wird bestimmt durch Merkmale. Entsprechend dem Clustering von Dokumenten als der Bestimmung von Dokument-Merkmalen wird für eine Klasse ein Dokument(Merkmals)vektor ermittelt (dabei geht man von den Merkmalen der bereits einer Klasse zugeordneten Dokumente aus). Es werden dann die einzuordnenden Dokumente mit dem Merkmalsvektor der Klasse verglichen und – bei vorhandener Ähnlichkeit – der dementsprechenden Klasse automatisch zugeordnet. Neben der Festlegung von Bedingungen wie derjenigen, welche Klassen-Termini im Dokument vorkommen müssen, damit die Zuordnung zur jeweiligen Klasse erfolgt, wurden die folgenden Überlegungen/Ansätze angeführt, die eine solche Klassenzuordnung verbessern und verfeinern könnten: Für ein präziseres klassifikatorisches Zuordnen der Dokumente mit ihren Merkmalen könnte ein Lexikonabgleich eingegliedert werden. So könnten in diesem Wörterbuch Synonyme festgelegt werden, so dass Dokumente einer bestimmten Klasse auch dann zugeordnet werden, wenn ein – einer Klasse als Merkmal zugeordneter – Deskriptor in Form einer gleichbedeutenden Benennung im Dokument vorkommt. Für ein sinnvolles Zuordnen zu den verschiedenen Klassen wäre außerdem eine genaue Festlegung der Gewichtung von Wörtern (z.B. ihr Vorkommen bezogen auf ihre Position im Text) einzufügen. Dadurch könnten Dokumente eindeutiger denjenigen Klassen zugeordnet werden, die sich nicht sehr stark voneinander unterscheiden, bei denen die Zuordnungen sich überschneiden könnten.
Mit diesem Verfahren der automatischen Klassifikation sind immer auch Schwierigkeiten verbunden, ist eine gewisse Fehlerhaftigkeit anhängig. So sind Schwierigkeiten mit den Klassenbeschreibungen verbunden (als ein Beispiel wurde die Unterklasse Kurioses in der Hauptklasse Vermischtes angeführt). Problematisch sind ferner Redundanzen, es können Mehrfachzuordnungen der Dokumente erfolgen, d.h. ein Dokument wird verschiedenen Klassen zugeordnet. Schließlich sind die Klassen nicht disjunkt (und gerade hieraus ergibt sich die angeführte zweite Schwierigkeit der Mehrfachzuordnungen).
Die automatisch-zuordnende ’Entscheidung’, welche Klasse für ein bestimmtes Dokument ’die beste’ ist, wird im Laufe des automatischen Klassifikationsverfahrens verfeinert. Hinzukommt dann der Vergleich des einzuordnenden Dokumentes mit anderen, bereits der Klasse zugeordneten Dokumenten. Es wird dann die Wahrscheinlichkeit mit einbezogen, mit der ein Dokument, das einen – Attribut einer Klasse darstellenden – Indexterminus enthält, auch tatsächlich dieser Klasse zuzuordnen ist. Hier spielen Wortkombinationen eine Rolle. So ist z.B. die Wahrscheinlichkeit, dass ein Dokument thematisch der ’Frauenemanzipation’ und nicht ’Märchen’ zuzuordnen ist, relativ groß, wenn in ihm neben ’Hexe’ auch ’lila’ vorkommt, die Wahrscheinlichkeit einer Zugehörigkeit zur Klasse ‚’Märchen’ dagegen groß, wenn ’Hexe’ und ’Zwerg’ vorkommt. Anzumerken ist hier, dass, da es sich um bedingte Wahrscheinlichkeiten handelt, solche Programmabfolgen als recht kompliziert einzustufen sind.
Vorangestellt wurde eine kurze Charakterisierung der Ermittlung von Dokumentähnlichkeit: Für die Ermittlung von Dokumentähnlichkeit werden Cluster von Dokumenten gebildet, die eine gewisse Ähnlichkeit haben. Vorangeht eine Merkmalsanalyse, in welchen Eigenschaften sich die Dokumente ähneln (berücksichtigt für die Bewertung eines Deskriptors in einem Dokument wird z.B. Wortvorkommen, Worthäufigkeit, Gewichtung [es gibt auch Verfahren, welche die Reihenfolge der Wörter berücksichtigen, also das Merkmal von aufeinanderfolgenden Wörtern], die durch einen entsprechenden Zahlenwert [Dokument-Vektor] ausgedrückt wird). Um den Rechercheaufwand überschaubar zu halten, wird mit einer willkürlichen Gruppe von ein paar miteinander zu vergleichenden Dokumenten begonnen, aus denen dann das Skalarprodukt gebildet wird. Auf diese Weise entstehen Dokument-Cluster-Gruppen, die sich ähnlich sind. Für die einzelnen Cluster-Gruppen wird dann ein Zentroidvektor ermittelt (dieser ergibt sich aus Mittelwert der Dokumentvektoren des Clusters geteilt durch die Anzahl der Dokumente). Alle neu hinzukommenden Dokumente werden für eine mögliche Zuordnung mit diesem Cluster-Merkmalsrepräsentanten verglichen.
In der Übung 1 der Lerneinheit 09 geht es nicht um eine solche Clusterbildung in Dokumentgruppen, sondern um die Ähnlichkeit zwischen einer Suchanfrage und den einzelnen Dokumenten. Hierbei werden nicht die einzelnen deskriptorenbezogenen Vektoren der Dokumente miteinander multipliziert, sondern die Vektoren der Suchanfrage jeweils mit den Vektoren der Dokumente. [Die Suchanfrage besteht aus den Vektoren (1 / 0 / 1 / 1 / 1 ): da Birne in der Suchanfrage nicht vorkommt, erhält dieser Deskriptor den Vektor 0. Dokument 1 besteht aus den Vektoren ( 0 / 0,5 / 1 / 0,25 / 2). Das Skalarprodukt wird ermittelt durch 1x0 + 0x0,5… und ergibt für die Ähnlichkeit von Suchanfrage und Dokument 1 insgesamt 3,25 ]. Je größer das Skalarprodukt für das Verhältnis Suchanfrage-Dokument ist, desto größer ist die Ähnlichkeit zwischen ihnen.
Evaluierung der Klassifikationsfunktion der Suchmaschine ’Vivisimo’: Für die von der Suchmaschine Vivisimo vorgenommene automatische Klassifizierung von Dokumenten wurden folgende Schwierigkeiten herausgearbeitet: 1. Die gebildeten Klassen sind nicht disjunkt, d.h. die Klassen sind nicht eindeutig voneinander zu unterschieden / schließen sich nicht gegenseitig aus. 2. Die Benennung der Klassen ist oftmals nicht bezogen auf die eigentlich inhaltlich relevanten Termini, haben keinen Bezug zur Inhaltlichkeit der – der entsprechenden Klasse zugeordneten – Dokumente (bei der Suche nach ’Helmut Kohl’ beispielsweise finden sich Klassen wie ’President’ und ’Hildegard’); häufig wird gerade ein inhaltlich irrelevanter Terminus als Benennung herangezogen. 3. Die Kriterien der Klassenbildung sind häufig nicht nachvollziehbar (u.a. stark unterschiedliche Dokumentenanzahl bei den einzelnen Klassen).
Die Kraft des Clustering-Verfahrens besteht in der hohen Anzahl der Dokumente. Gerade bei statistischen Vorgehensweisen muss meistens erst ein ’kritischer Wert’ erreicht sein, man muss erst eine große Menge an Dokumenten haben, damit überhaupt die Wahrscheinlichkeit besteht, dass sich einige Dokumente ähnlicher sind als andere, andernfalls – bei zu geringfügiger Dokumentenanzahl – würden sich zu viele Einzelklassen ergeben.
Das Clustering von Dokumenten ohne vorgegebenes Klassifikationssystem ist nicht allzu aussagekräftig. Es besteht darüber hinaus die weitere Möglichkeit der automatischen Zuordnung zu einem bereits vorgegebenen Klassifikationssystem. Dabei ist das Dokument-Clustering durchaus als ’Vorarbeit’, als ein vorbereitender Schritt anzusehen.
Es ist wichtig im Rahmen der Überlegungen zu automatischen wissensorganisatorischen Abläufen zu betonen bzw. sich bewusst zu machen, dass diese automatischen Verfahren nicht mit der ’Ebene des Intellektuellen’ (sie beruhen nicht auf einem wirklichen Verständnis des Textes. USp) zu vergleichen sind. Sie bleiben immer außerhalb einer solchen, nähern sich alleinig über Verfahren wie das statistische dem Ergebnis an.
Das auf Ermittlung von Ähnlichkeit von Dokumenten basierende Clustering erfolgt auch bei der automatischen Zuordnung von Dokumenten zu einer Klassifikation. Es werden anstelle eines Vergleichens der einzelnen Dokumente untereinander die Dokumente mit dem Merkmalsvektor der Klasse zur Ermittlung von Ähnlichkeit zwischen Dokument und Klasse verglichen. Sowohl beim Clustering wie auch der Zuordnung zu einer bereits vorgegebenen Klassifikation ergeben sich Schwierigkeiten und lassen sich defizitäre Aspekte feststellen, die mit immer neuen (wie auch ergänzenden) Verfahren verbessert werden müssen.