Schritt 1

Schritt 2

Schritt 3

Schritt 4

Sie sind hier

Einführung + Aufgabe

3 Verbesserungen

Invertierte Dateiensysteme

Übung



3 Verbesserungen gegenüber einfacher Stichwortextraktion


Stoppwortlisten
Feldbezogene Indexierung
KWIC-Index / KWOC-Index

1. Stoppwortlisten

An den Indexausschnitten für die 3 E-mail-Beispiele haben Sie gesehen, dass viele Textwörter für eine Informationssuche nur Ballast darstellen. Es handelt sich um aufzählbare Wörter geschlossener Wortklassen wie z.B. bestimmte und unbestimmte Artikel, Präpositionen und andere Funktionswörter ohne Inhalt, z.B. Hilfsverben. Solche Funktionswörter können 30% eines Textes ausmachen. Sie werden in einer Stoppwortliste festgehalten und bei der Indexierung nicht berücksichtigt.

Beispiel einer Stoppwortliste
Stichwortindex der e-mails ohne Stoppwörter

Frönen Sie Ihrem Spieltrieb! Interaktive Simulation: Volltextinvertierung mit und ohne Stoppwörter.

2. Feldbezogene Indexierung

Texte können, sofern sie strukturiert sind, feldbezogen indexiert werden. Z.B. können für den thematischen Zugriff auf die Daten werden nur diejenigen Felder für eine Stichwortextraktion angesteuert werden, die mutmaßlich für den Gesamtinhalt zu stehen - z.B. das Titelfeld bei bibliographischen Datensätzen oder in unserem Beispiel das 'Betreff'-Feld von e-mails.

Index aus Betreff-Feld für 3 E-Mails unter Verwendung einer Stoppwortliste

3. KWIC-Index / KWOC-Index

Sie haben gesehen, dass es unbefriedigend ist, Zugriff auf ein einzelnes Indexwort zu haben. Es wäre besser zu wissen, in welchem Kontext ein Wort steht: Kind im Kontext von Medizin / Kind im Kontext von Musikunterricht?

Bei der Recherche mit booleschen Operatoren setzt man den Kontext durch eine UND-Verknüpfung. Es ist mit einfachen Mitteln auch möglich, die Stichwörter in einem Zugriffsindex in ihrem Kontext anzuzeigen. KWIC- und KWOC-Indices werden in der Regel aus Titelfeldern erzeugt. Für unsere 3 Beispiel-E-Mails würde sich auch das Betreff-Feld für solch einen Index eignen.

KWIC-Index nennt man einen Index. der die Stichwörter mitten in ihrem Kontext anzeigt. KWOC-Index nennt man einen Index, der die Stichwörter meist vor ihrem Kontext anzeigt.

KWIC-Index aus Betreff-Feld der 3 e-mails
designer-kurse für die e-learning-plattform webct ce
designer-kurse für die e-learning-plattform webct ce
designer-kurse für die e-learning-plattform webct ce
schutz gegen spam und viren
sopresa
schutz gegen spam und viren
schutz gegen spam und viren
designer-kurse für die e-learning-plattform webct ce

KWOC-Index aus Betreff-Feld der 3 e-mails
ce  Designer-Kurse für die E-Learning-Plattform WebCT CE
designer-kurse   Designer-Kurse für die E-Learning-Plattform WebCT CE
e-learning-plattform  Designer-Kurse für die E-Learning-Plattform WebCT CE
schutz  Schutz gegen SPAM und Viren
sopresa  sopresa
spam  Schutz gegen SPAM und Viren
viren  Schutz gegen SPAM und Viren
webct  Designer-Kurse für die E-Learning-Plattform WebCT CE



zurück weiter: invertierte Dateiensysteme


Stand: 22. August 2003