Und so kommen Sie ins Spiel:

Die Ermittlung von Dokumentähnlichkeit ist eine Grundlage vieler Verfahren der automatischen Bündelung (Fachterminus "automatisches Clustering") von Dokumenten. Carrot2 ist eine Open Source Clustering Suchmaschine. Kann sich WissOrg das intellektuelle Klassifizieren ihrer Newsletter, E-Mails und Websites mit der firmeneigenen Klassifikation sparen, wenn die Clustering Software von Carrot2 eingesetzt würde?

Ihre Aufgabe: Testen Sie für die MitarbeiterInnen der Firma WissOrg das Clustering-Verfahren

Die Test-Suchmaschine Carrot2 setzt das Clustering Verfahren ein. Bitte untersuchen Sie die Funktionsweise von Carrot2. Tipps für Rechercheanfragen:

Werten Sie die Ergebnisse bitte auf folgende Fragen hin aus:
  1. Wie geht Carrot2 vor, um die Treffermengen zu bündeln? Veranschaulichen Sie die Vorgehensweise in einem kommentierten Flussdiagramm.
    Zum Nachlesen: Carrot2 ist eine Open Source Software, die jeder weiter nutzen darf. Im Carrot2 User and Developer Manual 3.8.0 wird im Kapitel 5.2. der Algorithmus erklärt.

  2. Ist eine Software, die wie Carrot2 funktioniert, geeignet, die Klassifizierungsarbeit bei WissOrg zu automatisieren? Fassen Sie Ihre Argumente in einem kurzen Text (1/2 Seite) zusammen.


Stand: 28. Mai 2018

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre

STEP 4

Übung 1
Step 1
Step 2
Step 3
Step 4
Step 5
Übung 2

LE 09: Ermittlung von Dokumentähnlichkeit