Und so kommen Sie ins Spiel:

Die Ermittlung von Dokumentähnlichkeit ist eine Grundlage vieler Verfahren der automatischen Klassifizierung von Dokumenten. Die Suchmaschine Vivisímo setzt ein solches Verfahren ein. Übernehmen Sie die Rolle der Praktikantin Julia Wissmann, indem Sie die Klassifikationsfunktion der Suchmaschine Vivisímo evaluieren.

Julia führt folgende Recherchen durch:

  1. "genetische Vielfalt" AND (Äpfel OR Apfel)
  2. Lexika OR Nachschlagewerke
  3. Helmut Kohl

Beurteilen Sie, ob die vom System angebotene Klassifizierung der Dokumente die Bewertung und Auswahl der Dokumente erleichtert.
Stellen Sie Vermutungen darüber an, wie das Tool zu einer klassifizierten Anzeige der Treffermengen kommt. Vivísmo erklärt die Funktionsweise des Systems in dem Whitepaper "How the Vivísimo Clustering Engine Works" (Vivisímo © 2003). Greifen Sie bei Ihren Überlegungen auch auf Ihre Kenntnisse über statistische Verfahren (Inverse Dokumentenhäufigkeit) zurück.

Informieren Sie sich bitte darüber, wie Dokument-Clustering funktioniert. Lesen sie dazu:

Tipps für kritisches Lesen: Nach der Lektüre sollten Sie folgende Fragen beantworten können:

Bereiten Sie für die nächste Sitzung eine Präsentation vor, in der Sie die einzelnen Arbeitsschritte, die für das Dokument-Clustering notwendig sind, erklären. Visualisieren Sie die Arbeitsschritte in Form eines Flussdiagramms (Eine einfache Möglichkeit der Darstellung bietet PowerPoint. Das Flussdiagramm darf aber auch mit Bleistift und Papier erstellt werden. smiley


Stand: 1. Juni

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre

STEP 4

Übung 1
Step 1
Step 2
Step 3
Step 4
Step 5
Übung 2

LE 09: Ermittlung von Dokumentähnlichkeit