Schritt 1

Schritt 2

Schritt 3

Schritt 4

Sie sind hier

Einführung + Aufgabe

3 Verbesserungen

Invertierte Dateiensysteme

Übung




Invertierte Dateisysteme

Um einen schnellen Zugriff auf Textdokumente über enthaltene Stichwörter zu ermöglichen, müssen die Texte zu einem invertierten Dateisystem aufbereitet werden. Ein invertiertes Dateisystem besteht aus

Quelle: Glöggler, Kap. 3.2 und 3.3.3


Vom Textdokument zum invertierten Dateisystem

(ein vereinfachtes Beispiel)

Dokument 1
Er konnte nie über etwas lachen,
wie kann ein Mensch so tief verflachen!
Dokument 2
Wozu, so fragt man sich, Reichtum, Wohstand, Macht,
wenn alles dies die Menschen nur verflacht?

(aus: Christian Morgenstern, Sprüche)

Arbeitsschritte des Programms bei der Volltextinvertierung:

1. Schritt:

Erstellung eines Index in der Reihenfolge des Vorkommens im Text. Jedes Wort erhält beim ersten Vorkommen eine feste Adresse (Nr.)

2. Schritt:

alphabetische Sortierung des Index aus Schritt 1

numerisch sortierter Indexalphabetisch sortierter Index
AdresseStichwortStichwortAdresse
1eralles22
2konntedie24
3niedies23
4überein9
5etwaser1
6lachenetwas5
7wiefragt15
8kannkann8
9einkonnte2
10menschlachen6
11somacht20
12tiefman16
13verflachenmensch10
14wozumenschen25
15fragtnie3
16mannur26
17sichreichtum18
18reichtumsich17
19wohlstandso11
20machttief12
21wennüber4
22allesverflachen13
23diesverflacht23
24diewenn21
25menschenwie7
26nurwohlstand19
27verflachtwozu14


3. Schritt:

Jetzt wird das invertierte Dateisystem erstellt, indem für jedes Wort eine invertierte Liste angelegt wird, in der angegeben ist:

Nr. StichwortDocIDPosition im TextFrequenzZusatzinfo
............
101101
11
 
1
2
11
2
1
1
............
272151

Erläuterungen

Eine Zeile ist eine invertierte Liste/Datei im invertierten Dateisystem. Für jedes Stichwort wird eine eigenständige invertierte Liste in der invertierten Datei erstellt.

Achtung: Die Bezeichnungen 'invertierte Liste' und 'invertierte Datei' werden häufig verwechselt, bzw. synonym verwendet. Es gibt keine einheitliche Sprachregelung.

Quellen:
Einführung in Information Retrieval
C.J. van Rijsbergen: Information Retrieval, Kapitel 4

Bei der Suche nach einem Dokument greift ein Retrieval System zunächst auf den alphabetisch sortierten Index zu. Der Index holt sich Informationen zu dem gesuchten Indexterminus in der entsprechenden invertierten Datei. Die wiederum greift über die in ihr enthaltenen Dokument-Identnummern auf die direkten Textdateien zu.

Stichwortsuchen in Textdokumenten erfolgen also über alphabetisch oder numerisch sortierte Listen; dadurch sind sie schnell. Eine direkte Suche nach einem Stichwort in einer Sammlung von Textdokumenten (Stringsuche) ist sehr langsam und nicht üblich.



zurückweiter: Übung


Stand: 24. August 2003