1. Volltextinvertierung als Vorarbeit der automatischen Indexierung
  2. Stoppwortlisten
  3. Feldbezogene Indexierung
  4. KWIC-Index / KWOC-Index

1. Volltextinvertierung zur Vorbereitung einer automatischen Indexierung

Bei einer Volltextinvertierung wird der Text in Form eines Index gespeichert. Dazu werden alle Wörter eines Textdokumentes in eine Indexdatei geschrieben. Dazu muss die Maschine zunächst in der Lage sein, Wörter zu erkennen. Diesen Prozess nennt man Tokenization. In der Regel wird ein Wort hier als Zeichenkette zwischen zwei Trennzeichen definiert. Man kann die Volltextinvertierung als eine einfache Form der automatischen Indexierung betrachten, da die Suche nach Textstichwörtern, über eine lineare Suche innerhalb des Textes hinausgehend möglich ist. Dieses Verfahren liefert jedoch keine Anhaltspunkte dafür, ob ein Stichwort bedeutsam für den Inhalt des Textes (sinntragend) ist. Probieren Sie einen Tokenizer auf der Webseite textprocessing.com aus.

2. Stoppwortlisten

An den Indexausschnitten für die 3 E-Mail-Beispiele haben Sie gesehen, dass viele Textwörter für eine Informationssuche nur Ballast darstellen. Es handelt sich um Wörter geschlossener Wortklassen wie z.B. bestimmte und unbestimmte Artikel, Präpositionen und andere Funktionswörter ohne inhaltliche Bedeutung. Solche Funktionswörter können 30-50% eines Textes ausmachen. Sie werden in einer Stoppwortliste festgehalten und bei der Indexierung nicht berücksichtigt. Auf diese Weise geht die Indexierung wesentlich schneller. Auch große Suchmaschinen arbeiten mit Stoppwortlisten. Sie können das selbst überprüfen, wenn Sie z. B. in der Suchmaschine Bing nach dem bestimmten Artikel "die" oder "the" recherchieren.

Schauen Sie sich in der Simulation an, wie sich eine Stoppwortliste auf die Länge des Index auswirkt.

Simulation starten

3. Feldbezogene Indexierung

Texte können, sofern sie strukturiert sind, feldbezogen indexiert werden. Z.B. können für den thematischen Zugriff auf die Daten nur diejenigen Felder für eine Stichwortextraktion angesteuert werden, die mutmaßlich für den Gesamtinhalt stehen - z.B. das Titelfeld bei bibliographischen Datensätzen oder in unserem Beispiel das 'Betreff'-Feld von e-mails.

Index aus Betreff-Feld für 3 E-Mails unter Verwendung einer Stoppwortliste


4. KWIC-Index / KWOC-Index

Sie haben gesehen, dass es unbefriedigend ist, Zugriff auf ein einzelnes Indexwort zu haben. Es wäre besser zu wissen, in welchem Kontext ein Wort steht: Kind im Kontext von Medizin oder Kind im Kontext von Musikunterricht?

Bei der Recherche mit booleschen Operatoren setzt man den Kontext durch eine UND-Verknüpfung. Es ist mit einfachen Mitteln auch möglich, die Stichwörter in einem Zugriffsindex in ihrem Kontext anzuzeigen. KWIC- und KWOC-Indexe werden z. B. aus Überschriftenfeldern erzeugt. Für unsere 3 Beispiel-E-Mails würde sich auch das Betreff-Feld für solch einen Index eignen.

KWIC-Index (keyword in context) nennt man einen Index, der die Stichwörter mitten in ihrem Kontext anzeigt. KWOC-Index (keyword out of context) nennt man einen Index, der die Stichwörter meist vor ihrem Kontext anzeigt.

KWIC-Index für die Email 1 für das Wort "Sie"

hiermit möchten wir Sie gerne
falls Sie Interesse haben
bitte ich Sie, mir
falls Sie selbst nicht
so nennen Sie mir

KWOC-Index aus Betreff-Feld der 3 e-mails
ce Designer-Kurse für die E-Learning-Plattform WebCT CE
designer-kurse Designer-Kurse für die E-Learning-Plattform WebCT CE
e-learning-plattform Designer-Kurse für die E-Learning-Plattform WebCT CE
schutz Schutz gegen SPAM und Viren
sopresa sopresa
spam Schutz gegen SPAM und Viren
viren Schutz gegen SPAM und Viren
webct Designer-Kurse für die E-Learning-Plattform WebCT CE


Stand: 25. September 2017

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 4

Lektüre 2

STEP 5

Übung
Step 1
Step 2
Step 3
Step 4
Step 5
Lektüre 1: Drei Verbesserungen gegenüber einfacher Stichwortextraktion

LE 02: Volltextinvertierung