Automatische Klassifikation: Zuordnung zu einer vorgegebenen Klassifikation

Unter Klassifikation im eigentlichen Sinne versteht man eine Zuordnung von Dokumenten zu bereits vorher festgelegte Klassen. Ziel der Klassifikation ist es, dass ein zu bewertendes Dokument der zugeteilten Klasse ähnlicher ist als allen anderen Klassen.

Im Folgenden werden die einzelnen Arbeitsschritte grob schematisch dargestellt.

  1. Voraussetzung:
    Voraussetzung für die automatische Klassifikation ist das Vorliegen einer Klassifikation mit bestimmten Merkmalen. Im einfachsten Falle können der Klasse zugeordnete Begriffe solche Merkmale sein. Solche Begriffe könne z. B. auch aus den einer Klasse zugeordneten Unterbegriffen gewonnen werden. In bibliothekarischen Anwendungen wird aber auch häufig eine Analyse von Dokumenten, die einer Klasse zugeordnet sind, vorgenommen und statistisch ermittelt, welche Schlagwörter für Dokumente dieser Klasse vergeben werden. Die vergebenen Schlagwörter bilden dann die Merkmale dieser Klasse.
  2. Verfahrensweisen:
    In einfachen Anwendungen der automatischen Klassifikation werden die vorher intellektuell bestimmten Merkmale einer Klassifikation, z. B. die ihr zugeordneten Deskriptoren, mit den zu klassifizierenden Dokumenten verglichen. Genauer gesagt, wird das Vorkommen bestimmter Terme im Dokument mit dem Vorkommen dieser Terme in der Beschreibung der Klasse verglichen. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren und den Vektoren der Klassen geschehen. Das Verfahren GERHARD, in dem Webdokumente automatisch der UDK (Universal Decimal Classification) zugeordnet werden, beruht auf diesem Ansatz.
    In vielen Anwendungen werden allerdings die Klassenbeschreibungen im Rahmen eines automatischen Trainingprozesses 'erlernt'. Das bei Gruner+Jahr eingesetzte Verfahren DigDok basiert auf diesem Ansatz. Ein intellektuell klassifizierter Bestand von Trainingsdokumenten wird daraufhin analysiert, nach welchem Muster die Dokumente den Klassen zugeordnet werden. Hierzu werden Merkmale gesammelt, die Dokumente haben, die einer Klasse zugeordnet sind. Häufig ausgewertete Eigenschaften sind Vorkommen und Gewicht bestimmter Indextermini in den einer Klasse zugeordneten Dokumenten. Hierzu werden z. B.
    • die häufigsten gemeinsamen Terme einer Klasse ermittelt
    • die Häufigkeiten dieser Terme in anderen Klassen ermittelt
    • Terme werden einer Klasse zugewiesen, wenn sie in dieser Klasse häufig, in anderen Klassen hingegen selten vorkommen

  3. Nachdem anhand des Trainingsbestandes festgelegt wurde, welche Merkmale (z. B. Vorkommen bestimmter Wörter) repräsentativ für eine Klasse sind, können neue Dokumente den Klassen zugeordnet wurden. Dazu müssen die Bedingungen festgelegt werden, die zur Zuweisung eines Dokumentes zu einer Klasse führen. Solche Bedingungen können sein:
    • Anzahl von Termen, die einer Klasse zugeordnet sind, die ein Dokument mindestens enthalten muss
    • Festlegung von Schwellenwerten für Gewichte
  4. Häufig wird auch ein auf Wahrscheinlichkeitsannahmen beruhendes Verfahren eingesetzt.
    Dem "Naiven Bayes Algorithmus" (auch Relation Z genannt) liegt folgende einfache Annahme zu Grunde: Wenn in einer Dokumentkollektion von 100 Dokumenten der Klasse Märchen in 50 Dokumenten das Wort Hexe enthalten, ist die Wahrscheinlichkeit 50/100, dass ein Dokument, in dem Hexe vorkommt, der Klasse Märchen zugeordnet wird.
    Die rein auf der Ermittlung von Ähnlichkeiten beruhenBildung des Skalarproduktes beruhende Zuteilung von Dokumenten zu Klassen kann auf diese Weise also verfeinert werden. Das Klassifikationsverfahren "lernt" hinzu. Zu Beginn 'weiss' es nur, dass ein Term x ein Attribut einer Klasse ist, nach einigen Klassifikationsdurchläufen hat es gelernt, mit wie hoher Wahrscheinlichkeit, ein Dokument, das diesen Term enthält, auch tatsächlich der entsprechenden Klasse zuzuordnen ist.

Literatur:

Brilmayer, Iris u. a.: Automatische Indexierung von dpa-Meldungen : Kleines Experiment zur Evaluierung des Darmstädter Indexierungsansatzes. Darmstadt : FH Darmstadt, unveröffentlichte Gruppenarbeit, 1997 (geringfügig verändert von Gerhard Knorz)
http://spock.iuw.fh-darmstadt.de/methodik/publ/ausarb/aidpa/ausarb1.htm


Robert Hoffmann: Entwicklung einer benutzerunterstützten automatisierten Klassifkation von Web-Dokumenten. - Diplomarbeit, Graz 2002, insbesondere Kap. 4
http://www.iicm.edu/cguetl/education/thesis/rhoff/dagegliedert/Hoffmann_DA_4.htm

Wätjen, Hans-Joachim: GERHARD - Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informations-Ressourcen im deutschen World Wide Web. In: B.I.T. Online (1998) 4, S. 279-290, insbesondere Abschnitte 2., 4., 5.2. und 5.3.-5.3.3.

Bericht über das Projekt GERHARD für die DFG 1998 (deutsch) Abschnitt 3.4

Rapke, Kristin: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank. In: Information Research & Content Management. 23.Online-Tagung und 53 Jahrestagung der DGI, 8.-10. Mai 2001. Hrsg. v. Ralph Schmidt. - Frankfurt/Main : DGI, 2001

Van Rijsbergen, C.J.: Information Retrieval, 2. Auflage.- London : Butterworths, 1979 Online: http://sherlock.berkeley.edu/IS205/IR_CJVR


Stand: 13. Juni

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 5

Übung
Step 1
Step 2
Step 3
Step 4
Step 5
Lektüre 2: Zuordnung zu einer vorgegebenen Klassifikation

LE 10: Dokumentklassifikation