Schritt 1

Schritt 2

Schritt 3

Schritt 4

Schritt 5

Schritt 6

Schritt 7

Sie sind hier

Einführung
 

Aufgabe 1
 

Häufigkeit
- Übung

Termfrequenz
 

Aufgabe 2
 

IDF    
- Übung

WissOrg testet
- Formeln



Aufgabe 2

Wenn Sie eine Textsammlung zum Thema "E-Learning" vor sich hätten, würden Sie sicherlich nicht für jedes Dokument das Schlagwort "E-Learning" vergeben? Warum eigentlich nicht?

Wenn wir die Qualität von intellektueller Indexierung bewerten, legen wir zwei Kriterien zu Grunde.

  1. Gute Deskriptoren sind signifikant für den Inhalt des verschlagworteten Dokuments.
  2. Gute Deskriptoren sind dazu geeignet, die unterschiedlichen Dokumente einer Dokumentensammlung inhaltlich voneinander zu unterscheiden. (Diskriminanzeffekt)

Überlegen Sie sich, wie man diese Anforderungen in einem statistischen Verfahren der automatischen Indexierung, das mit Worthäufigkeiten arbeitet, umsetzen kann.
Lesen Sie zur Lösung der Aufgabe bitte einen kurzen Ausschnitt (Abschnitt 3.4) aus folgendem Text. Notieren Sie sich, was Sie nicht verstanden haben.


Knorz, Gerhard: 3. Statistische Ansätze. In: Ders.: Automatische Indexierung. Kapitel 4, S. 138 - 196 in: Hennings, R.-D.; Knorz, G.; Manecke, H.-J.; Reinicke, W.; Schwandt, J.: Wissensrepräsentation und Information Retrieval. Universität Potsdam, Informationswissenschaft, Modellversuch BETID, Lehrmaterialien Nr. 3, Mai 1994
[URL: http://www.iuw.fh-darmstadt.de/iud/wwwmeth/publ/skript/autind94/paper1.htm#Kap3.4]

weiter: Inverse Dokumenthäufigkeit


Stand: 20. August 2003