PROTOKOLL DER SITZUNG VOM 22.10.2003
Thema der Sitzung: Volltextinvertierung
Ein Indexierungsprogramm soll auf seine Tauglichkeit geprüft werden. Dazu hat das Programm 3 E-Mails indexiert. Die nachfolgenden Fragen sollten dazu beantwortet werden:
- Was tat das Programm, um die E-Mails zu indexieren?
- Inwiefern ist das Indexierungsergebnis in Ordnung?
- Inwiefern ist das Indexierungsergebnis unbefriedigend?
- Wie kann der Programmierer das Indexierungsprogramm so verbessern, dass die Indexierungsergebnisse für eine inhaltliche Suche von E-mails befriedigender sind?
I Unsere Problemlösungen
Zu 1.) Wie arbeitet das Programm?
Durch Vergleich der Index-Ausschnitte mit den indexierten E-Mails kamen wir zu folgendem Ergebnis:
- das Programm indexiert alles, was es als Wort ansieht in alphanumerischer Reihenfolge;
- Zahlen werden vorangestellt; impliziert durch die alphanumerische Reihenfolge
- alles, was zwischen zwei Leerzeichen bzw. zwischen zwei Blanks steht, wird unabhängig vom Kontext von dem Programm als Wort erkannt und auf den Index gesetzt (manche Wörter werden daher auch unlogisch indexiert;)
- das Programm prüft außerdem, ob das erste oder das letzte Zeichen eines Wortes ein Buchstabe ist (wenn nicht, dann wird das Wort nicht in den Index aufgenommen);
- das Programm unterscheidet Buchstaben von Nichtbuchstaben;
- das Programm zeigt an, in wie vielen Dokumenten das Wort vorkommt (aber nicht wie häufig insgesamt);
Zu 2) Vorteile des Programmes:
Unser Ergebnis:
- da jeder Begriff von der Maschine erschlossen wird, kann der Nutzer auch nach jedem Wort suchen;
- es wird jedes Wort für ein Dokument nur einmal erschlossen, das Dokument würde in der Trefferliste auch nur einmal aufgeführt;
- selbst Wörter anderer Sprachen werden aufgenommen;
- der Nutzer kann auch nach E-Mail-Adressen suchen
Zu 3.) Nachteile des Programmes:
Unser Ergebnis:
- es werden zu viele Wörter in den Index aufgenommen, unabhängig für die Relevanz einer späteren Suche;
- das Programm erkennt keine Satzzeichen;
- das Programm erkennt keine Synonyme;
- die Maschine erkennt teilweise die Wörter nicht richtig; (Beispiel: volta.Saluta)
- die Relevanz der E-Mails wird nicht dargestellt;
- das Programm unterscheidet nicht nach wichtig oder unwichtig;
- es ist keine feldbezogene Suche möglich;
- das Programm kann mit der Grammatik (Singular, Plural, Zeiten und Personen bei Verben) nicht umgehen
Zu 4.) Verbesserungsvorschläge für das Programm:
Unsere Diskussion ergab die nachfolgenden Vorschläge zur Verbesserung:
- Inhaltsleere Wörter (Artikel, Pronomina, Präpositionen, Adverbien, Konjunktionen) brauchen nicht aufgenommen zu werden (Stoppwortliste sollte erstellt werden);
- Trunkierungen sollten möglich sein;
- Feldbezogener Index bzw. Feldbezogene Suche;
- Begriffe aus dem Betreff-Feld sollten extra bzw. besonders aufmerksam indexiert werden;
- das Programm sollte den Wortstamm indexieren (z. B. "Stell" für stellen, Stellung, Stellvertreter usw.);
- die Formaldaten von E-Mails (von, an, Datum usw.) sollten extra indexiert werden
II Unser weiterer Lernprozess
Als Ergebnis kann festgehalten werden, dass die Indexierungssoftware in jedem Fall verbesserungswürdig ist.
Im Verlauf der Sitzung wurden außerdem folgende Begriffe geklärt:
KWIC-Index (KWIC = Keyword in context)
Bei dieser Indexierungsart wird das Stichwort zusammen mit dem Kontext (vorherige und nachfolgende Wörter)angezeigt und hervorgehoben.
Beispiel aus Betreff-Feld der 3 e-mails:
- designer-kurse für die e-learning-plattform webct ce
-
- designer-kurse für die e-learning-plattform webct ce
-
- designer-kurse für die e-learning-plattform webct ce
-
- schutz gegen spam und viren
-
- sopresa
-
- schutz gegen spam und viren
-
- schutz gegen spam und viren
-
- designer-kurse für die e-learning-plattform webct ce
-
KWOC-Index (KWOC = Keyword out of Context)
Bei dieser Indexierungsart wird das Stichwort alphabetisch meist vor ihrem Kontext angezeigt.
Beispiel aus Betreff-Feld der 3 e-mails:
- ce Designer-Kurse für die E-Learning-Plattform WebCT CE
-
- designer-kurse Designer-Kurse für die E-Learning-Plattform WebCT CE
-
- e-learning-plattform Designer-Kurse für die E-Learning-Plattform WebCT CE
-
- schutz Schutz gegen SPAM und Viren
-
- sopresa sopresa
-
- spam Schutz gegen SPAM und Viren
-
- viren Schutz gegen SPAM und Viren
-
- webct Designer-Kurse für die E-Learning-Plattform WebCT CE
-
25. Oktober 2003
Protokollantin:
Nicole Petrucela / Medok / 3. Semester / A (leicht korrigiert Spree 03.11.2003)