Schritt 1

Schritt 2

Schritt 3

Schritt 4

Schritt 5

Sie sind hier

Einführung

Ähnlichkeit

Übung

Vektorraummodell

WissOrg testet



Lerneinheit 7

Ermittlung von Dokumentähnlichkeit

WissOrg testet

Die KollegInnen aus der Doku-Abteilung bei WissOrg haben sich über das Vektorraummodell informiert.

Katja Rabe meint: "Das müsste man einmal ausprobieren. Wir haben doch die Ergebnisse des Tests zur automatischen Indexierung. Wir könnten doch die Ergebnisse verwenden, um die Ähnlichkeit zwischen den Dokumenten zu ermitteln."

Herr Fuchs wendet ein: "Das sind doch nur Spieldaten, was soll das schon bringen?"

Jetzt will der Chef es aber wissen, er beauftragt Frau Rabe in Zusammenarbeit mit der Praktikantin Julia Wissmann einen Test zu konzipieren.

So kommen Sie ins Spiel:

Übernehmen Sie die Rolle von Katja Rabe und Julia Wissmann. Erstellen Sie ein Konzept, wie man unter Einsatz der auf dem Vektorraummodell basierenden Berechnung von Ähnlichkeiten, die Ähnlichkeit der in Lerneinheit 5 bearbeiteten Dokumente ermitteln könnte. Bevor Sie mit der Rechnung anfangen, schauen Sie sich bitte nochmal die Dokumente an und stellen Sie Vermutungen darüber an, welche beiden Dokumente die größte Ähnlichkeit aufweisen.
Jetzt rechnen Sie: Zum Ausgangspunkt können Sie die aufbereiteten und bereinigten Testergebnisse nehmen. Ermitteln Sie unter den 5 Dokumenten zu fachwissenschaftlichen Texten die 2 Dokumente mit der höchsten Ähnlichkeit.

Informieren Sie sich bitte darüber, wie Dokument-Clustering funktioniert. Lesen sie dazu:

  • Kap. 4.5. Cluster Verfahren. In: Glöggler, Michael: Suchmaschinen im Internet. - Berlin u.a.: Springer, 2003, S. 90-94
  • Clusterverfahren. In: Salton, Gerard; McGill, Michael: Information Retrieval - Grundlegendes für Informationswissenschaftler. - Hamburg u. a.: Mc Graw-Hill Book Company Gmbh, 1987, S. 228-236.(schwierig, geeignet für weiterführende Beschäftigiung mit dem Thema)
  • Nohr, Holger: Grundlagen der automatischen Indexierung : Ein Lehrbuch. - Berlin: Logos Verlag, 2003, S. 45-47

Tipps für kritisches Lesen: Nach der Lektüre sollten Sie folgende Fragen beantworten können:

  • Wie werden aus der Dokument-Dokument-Ähnlichkeitsmatrix Dokument-Cluster gewonnen?
    Versuchen Sie sich die Funktionsweise am Beispiel der Vivisimo-Recherchen zu verdeutlichen
  • Was ist ein Clusterzentroid?
  • Welche Arbeitsschritte muss ein Programm bei der Clusterung von Dokumenten durchlaufen?

Bereiten Sie für die nächste Sitzung eine Präsentation vor, in der Sie die einzelnen Arbeitsschritte, die für das Dokument-Clustering notwendig sind, erklären. Visualisieren Sie die Arbeitsschritte in Form eines Flussdiagramms.


zurück: Beginn der Lerneinheit 7 Druckversion InputEnde der Lerneinheit 7   

Stand: 06. Januar 2004