Lerneinheit 7

Ermittlung von Dokumentähnlichkeit

Lerninhalte

In dieser Lerneinheit lernen Sie ein Verfahren kennen, mit dem Dokumente automatisch klassifiziert werden können.
Die Lerneinheit besteht aus einer einführenden Aufgabe, einem Input und einer komplexen Gruppenarbeit, in der Sie das Gelernte auf die Firma WissOrg anwenden. Im Input lernen Sie mit dem Vektorraummodell ein einfaches Modell kennen, das es erlaubt Ähnlichkeiten zwischen Dokumenten zu berechnen.
Literatur und Links zur Lerneinheit

Lernziele

Am Ende dieser Lerneinheit können Sie,

beschreiben, wie man die Ähnlichkeit zwischen Dokumenten und Suchanfragen oder zwischen zwei Dokumenten automatisch ermitteln kann.

Ausgangslage bei WissOrg

In einem Aprilscherz behauptet Google, dass das Unternehmen Tauben zur Sortierung der Webseiten einsetze. Leider ist das Verfahren noch nicht ausgereift.

In dieser Lerneinheit begleiten Sie die KollegInnen der Doku-Abteilung von WissOrg dabei, wie sie sich damit auseinander setzen, mit welchen Verfahren die bisher mühsam durchgeführte intellektuelle Zuordnung der E-Mails und Websites zur firmeneigenen Klassifikation durch automatische Verfahren ergänzt oder ersetzt werden kann. Zum Einstieg schaut sich das WissOrg Team verschiedene Tools an. Herr Stahl findet das 'Clustering Verfahren' der Suchmaschine Vivisimo sehr vielversprechend.

So kommen Sie ins Spiel:

Übernehmen Sie die Rolle der Praktikantin Julia Wissmann, indem Sie die Klassifikationsfunktion der Suchmaschine Vivisimo evaluieren. Julia führt folgende Recherchen durch:

"genetische Vielfalt" AND (Äpfel OR Apfel)
Lexika OR Nachschlagewerke
Helmut Kohl

Beurteilen Sie, ob die vom System angebotene Klassifikation die Bewertung und Auswahl der Dokumente erleichtert. Stellen Sie Vermutungen darüber an, wie das Tool zu einer klassifizierten Anzeige der Treffermengen kommt (unter "Clustered Results"). Greifen Sie bei Ihren Überlegungen auf Ihre Kenntnisse über statistische Verfahren (Inverse Dokumentenhäufigkeit) zurück.

weiter: Ähnlichkeitsberechnung

Stand: 20. August 2003