Schritt 1

Schritt 2

Schritt 3

Schritt 4

Schritt 5

Schritt 6

Schritt 7

Sie sind hier

Einführung
 

Aufgabe 1
 

Häufigkeit
- Übung

Termfrequenz
 

Aufgabe 2
 

IDF    
- Übung

WissOrg testet
- Formeln



Lerneinheit 5

Statistische Verfahren

Lerninhalte

  1. Schwächen der Volltextinvertierung
  2. Worthäufigkeit als Indikator für die Ermittlung geeigneter Deskriptoren
    • Grundlagen (Zipfsches Gesetz)
    • Berechnung von Worthäufigkeiten innerhalb einzelner Dokumente (Termfrequenz)
    • Berechnung der Beziehung der Worthäufigkeit innerhalb eines Dokumentes im Verhältnis zu allen in der Dokumentation enthaltenen Dokumenten (inverse Dokumenthäufigkeit)
  3. Vergleich automatische Indexierung und intellektuelle Indexierung
  4. Abhängigkeit der Indexierungsqualität von der Textart
  5. Literatur und Links

Lernziele

Am Ende dieser Lerneinheit wissen Sie,

  1. worin der Unterschied zwischen Volltextinvertierung und automatischer Indexierung besteht,
  2. auf welchen Grundannahmen über Worthäufigkeiten statistische Verfahren der automatischen Indexierung basieren,
  3. wie Programme zur automatischen Indexierung durch die Berücksichtigung statistischer Gegebenheiten von Texten, diesen sinntragende Deskriptoren zuteilen.

Am Ende dieser Lerneinheit können Sie,

  1. anhand der Formeln zur Berechnung der Termfrequenz und der inversen Dokumenthäufigkeit nachvollziehen, wie bei statistischen Verfahren der automatischen Indexierung die Deskriptoren ermittelt werden,
  2. Stärken und Schwächen statistischer Verfahren der automatischen Indexierung im Vergleich zur intellektuellen Indexierung benennen.

Ausgangslage bei WissOrg

Bild WissOrg bei der Arbeit

Hier sehen Sie das Team von WissOrg bei der Auswertung der Ergebnisse der Volltextinvertierung. Man ist sich darüber einig, dass ein auf Grundlage einer Volltextinvertierung mögliches Freitext-Retrieval nicht den Qualitätsanforderungen der Firma entspricht:
Wenn jedes Wort des Textes, bis auf die Wörter aus der Stoppwortliste, suchbar ist, entsteht bei der Recherche zu viel Ballast und die Nachbearbeitung der Ergebnisse dauert zu lange.

So kommen Sie ins Spiel:

DIN Norm 31623 definiert Indexieren mit in den folgenden Worten: "Indexieren ist das Zuordnen von Deskriptoren oder Notationen zu einer dokumentarischen Bezugseinheit zur Wiedergabe der einzelnen darin enthaltenen Sachverhalte."

Frau Rabe hat sich inzwischen etwas auf dem Markt für Indexierungssoftware umgeschaut und formuliert die These: "Obwohl das Verfahren der Stichwortrecherche, das wir getestet haben, vollautomatisch arbeitet, kann es nicht eigentlich zu den automatischen Indexierungsverfahren gezählt werden."

Finden Sie Begründungen für Frau Rabes Behauptungen. Gehen Sie anschließend gleich weiter zur Aufgabe.


weiter: Aufgabe


Stand: 20. August 2003