Unter Klassifikation im eigentlichen Sinne versteht man eine Zuordnung von Dokumenten zu bereits vorher festgelegte Klassen. Zum Einstieg können Sie sich eine kurze Demo der Software ACT-DL (Automatic Classification Toolbox for Digital Libraries) ansehen. Klicken Sie bitte auf das Bild.
Im Folgenden werden die einzelnen Arbeitsschritte grob schematisch dargestellt.
Dem "Naiven Bayes Algorithmus" (auch Relation Z genannt) liegt folgende einfache Annahme zu Grunde: Wenn in einer Dokumentkollektion von 100 Dokumenten der Klasse Märchen in 50 Dokumenten das Wort Hexe enthalten ist, ist die Wahrscheinlichkeit 50/100, dass ein Dokument, in dem Hexe vorkommt, der Klasse Märchen zugeordnet wird.
Die rein auf der Ermittlung von Ähnlichkeiten durch die Bildung des Skalarproduktes beruhende Zuteilung von Dokumenten zu Klassen kann auf diese Weise also verfeinert werden. Das Klassifikationsverfahren "lernt" hinzu. Zu Beginn 'weiss' es nur, dass ein Term x ein Attribut einer Klasse ist, nach einigen Klassifikationsdurchläufen hat es gelernt, mit wie hoher Wahrscheinlichkeit, ein Dokument, das diesen Term enthält, auch tatsächlich der entsprechenden Klasse zuzuordnen ist.
Erfahrung aus der Praxis:
"... [es] sind fünfzig bis hundert oder mehr manuell verschlagwortete Beispieldokumente pro Kategorie notwendig, um sicherzustellen, dass die Ergebniskategorien von hoher Qualität sind. Der Nachteil der Naive-Bayes-Kategorisierung ist also, dass sie viele Beispiele braucht. Man kann mit dem Kategorisieren nicht anfangen, bevor man nicht hunderte oder gar tausende von Beispielen erstellt hat, um das System zu trainieren." (Quelle: Peter Gottschalk: Intelligente Suchmaschinentechnologie im Einsatz - Die Schweizer Mediendatenbank SMD. In : Informationskompetenz 2.0. - 24. Oberhofer Kolloquium zur Praxis der Informationsvermittlung - im Gedenken an Joseph Weizenbaum. - Barleben/Magdeburg 10. bis 12. April 2008. Tagungsband Hrsg. von Marlies Ockenfeld. - Frankfurt a.M.: DGI, 2008, S. 161)
1. Das vom Joint Research Centre der Europäischen Kommission publizierte Angebot NewsBrief klassifiziert automatische Presseartikel aus den weltweit wichtigsten Tageszeitungen (ca. 1000 Klassen und über 30.000 Schlagwortmuster).
3. Automatisches Klassifizieren ist in der Pressedokumentation (DocCat bei Gruner + Jahr, LEXIS-NEXIS) und in der Patentdokumentation im Routineeinsatz - allerdings nur im Sinn einer vorschlagenden Vorklassifizierung, die der intellektuellen Kontrolle bedarf.
4. Beispiel für eine (intellektuell erstellte) Regel, die für LEXIS-NEXIS Dokumente der Klasse 'Joint Venture' zuordnet; die Regel ist eine Tabelle am Ende des Dokuments.
5. BASE der Universitätsbibliothek Bielefeld bietet ein Browsing durch eine Sammlung von 28 Millionen wissenschaftlicher Dokumente an. Ca. 400.000 davon stehen bisher in der Browsinghierarchie zur Verfügung. Die Dokumente wurden den ersten 2-3 Ebenen der DDC vollautomatisch zugeordnet. Dies geschah auf der Basis einer intellektuell klassifizierten Trainingsmenge: BASE Lab: Browsing. Probieren Sie den Bielefeld DDC Classifier selbst aus!
Literatur:
Bird, Steven; Klein, Ewan; Loper, Edward: 6. Learning to Classify Text. In: Dieselb.: Natural Language Processing with Python. : Analyzing Text with the Natural Language Toolkit. Online: http://www.nltk.org/book/ Abruf: 2015-01-06
Croft, W. Bruce; Metzler, Donald; Strohman, Trevor: Chapter 9. Classification and Clustering. In: Dieselb.: Search Engines : Information Retrieval in Practice. Boston : Addison-Wesley, 2010. S. 343-399.
Robert Hoffmann: Entwicklung einer benutzerunterstützten automatisierten Klassifkation von Web-Dokumenten. - Diplomarbeit, Graz 2002, insbesondere Kap. 4
http://www.iicm.edu/cguetl/education/thesis/rhoff/dagegliedert/Hoffmann_DA_4.htm
Oberhauser, Otto: Automatisches Klassifizieren: Entwicklungsstand - Methodik - Anwendungsbereich. Frankfurt a. M. : Lang,2005
Steinberger, Ralf; Bruno Pouliquen & Erik van der Goot: An introduction to the Europe Media Monitor family of applications. In: Gey, Frederic; Kando, Noriko; Karlgren, Jussi: Proceedings of the SIGIR 2009 Workshop July 23, 2009 Boston, Massachusetts USA : Information Access in a Multilingual World. Boston 2009, S. 1-9. Online: https://www.researchgate.net/profile/Erik_Van_der_Goot/publications. Zugriff: 2016-01-05
Wätjen, Hans-Joachim: GERHARD - Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informations-Ressourcen im deutschen World Wide Web. In: B.I.T. Online (1998) 4, S. 279-290, insbesondere Abschnitte 2., 4., 5.2. und 5.3.-5.3.3.
Bericht über das Projekt GERHARD für die DFG 1998 (deutsch) Abschnitt 3.4
Rapke, Kristin: Automatische Indexierung von Volltexten für die Gruner+Jahr Pressedatenbank. In: Information Research & Content Management. 23.Online-Tagung und 53 Jahrestagung der DGI, 8.-10. Mai 2001. Hrsg. v. Ralph Schmidt. - Frankfurt/Main : DGI, 2001
Universitätsbibliothek Bielefeld: Automatische Klassifikation nach DDC (Kurzerklärung des DDC Klassifikators). http://www.ub.uni-bielefeld.de/wiki/AlexAutoklass