Lerninhalte

  1. Schwächen der Volltextinvertierung
  2. Worthäufigkeit als Indikator für die Ermittlung geeigneter Indexterme

Lernziele

Wenn Sie diese Lerneinheit über statistische Verfahren bearbeitet haben,

  1. wissen Sie, wie Programme zur automatischen Indexierung durch die Berücksichtigung statistischer Gegebenheiten in Texten (Worthäufigkeiten und Wortverteilungen) inhaltsrelevante Indexate extrahieren,
  2. können Sie anhand von Worthäufigkeiten in einem Text und Worthäufigkeiten in einer Dokumentensammlung berechnen, wie repräsentativ ein Wort für den Inhalt eines Textes ist,
  3. können Sie Stärken und Schwächen statistischer Verfahren der automatischen Indexierung im Vergleich zur intellektuellen Indexierung benennen,
  4. verstehen Sie, welche Bedeutung Worthäufigkeiten (keyword density) für die Suchmaschinenoptimierung haben.

WissOrg testet

Das Team von WissOrg ist sich darüber einig, dass eine bloße Volltextinvertierung (jedes Stichwort geht in den Index ein) nicht den Kriterien einer inhaltlichen Erschließung genügt. Zufrieden war das Team mit den Ergebnissen der wörterbuchbasierten Verfahren. Durch diese Verfahren konnte die Zusammenführung der Indexeinträge via Stemming erzielt werden.

Katja Rabe

Katja Rabe hat sich inzwischen auf dem Markt für Indexierungssoftware umgeschaut und meint: "Das wörterbuchbasierte Verfahren, das wir getestet haben, arbeitet zwar vollautomatisch; aber diese Verfahren sind nicht in der Lage, die für einen Text relevantesten Stichworte zu identifizieren.

 

 


Julia Wissmann


Julia stimmt zu. Sie erinnert an die Formulierung in der DIN Norm 31623 "Indexieren ist das Zuordnen von Deskriptoren oder Notationen zu einer dokumentarischen Bezugseinheit zur Wiedergabe der einzelnen darin enthaltenen Sachverhalte."

 

 

 

Stand: 05. November 2015

< Seite drucken >
< Zum Seitenanfang >

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 4

Lektüre 2

STEP 5

Übung
Step 1
Step 2
Step 3
Step 4
Step 5
Einführung

LE 06: Statistische Verfahren