Mario Schreiber

Mario Schreiber ist verärgert: Täglich erhält er mindestens 30 E-Mails, die er nicht will - Spams. "Ich weiß genau, dass ich kürzlich auf eine Mail im Archiv gestoßen bin, die Tipps gegen Spams gibt." - sagt ihm Rainer Fuchs. Mario Schreiber will sofort nach der Mail recherchieren und ruft das E-Mail-Archiv von WissOrg auf. Da er weiß, dass weit über die Hälfte der Texte englischsprachige E-Mails sind, gibt er ein:

problems with spams in e-mails

Er findet nichts.

Rainer Fuchs

 

 

"Oh, das ist ein gutes Beispiel für die Grenzen der Volltextindexierung ...," sagt Herr Fuchs, "wenn wir ein Stemming-Programm beim Indexieren unseres E-Mail-Archivs anwenden könnten, hätten Sie das Dokument gefunden."

 

 

Hier ist der Anfang der E-Mail:

Spam solutions and many other e-mail management tips: This is a document on how to avoid spam. Spam isn't a problem for me, and it shouldn't be a problem for you. Just follow these steps:


Mario Schreiber liest den Text und sagt: "Das verstehe ich jetzt nicht, können Sie mir das bitte nochmal - aber bitte nicht in Ihrer Spezialistengeheimsprache - verständlich erklären."

Übernehmen Sie die Rolle von Rainer Fuchs.

  1. Wenden Sie den Algorithmus von Kuhlen auf die Anfrage von Mario Schreiber und die E-Mail an und notieren Sie das Ergebnis.
  2. Lassen Sie anschließend die Anfrage von Mario Schreiber und den Anfangstext der E-Mail anhand dieses Demo-Programms (externe Site) von Porters Stemming-Algorithmus für englische Wörter stemmen. Sie können die Mail und die Suchformulierung in das Fenster der Demo kopieren.Vergleichen Sie das Ergebnis mit Ihrem Ergebnis.
  3. Erläutern Sie Mario Schreiber, wie sich der 'Stemmer' auf die Indexierung der E-Mail und auf seine Suchformulierung auswirkt.
  4. Erklären Sie ihm, warum die E-Mail über Spams gefunden worden wäre, wenn das Indexierungs- und Retrievalprogramm bei WissOrg einen solchen Stemmer hätte.
  5. Bauen Sie gedanklich in das Stemming-Programm eine Stoppwortliste ein: Was würde jetzt in dem Index zu der E-Mail stehen? Wie sieht nun Mario Schreibers Suchformulierung aus? Ist die Auswirkung der Stoppwortliste akzeptabel? Bitte halten Sie Ihre Ergebnisse schriftlich fest.
  6. Zusatzaufgabe für PROGRAMMIERFREAKS (Bearbeitung zählt als zusätzlich bearbeitet Aufgabe) und Englischfans: Lesen Sie Porters Algorithmus von 1980 und bereiten Sie eine Präsentation vor, in der die einzelnen Schritte des Algorithmus erklärt werden.

Bitte formulieren Sie Ihre Erläuterungen so, dass Mario Schreiber sie als Informationslaie versteht!

Stand: 30. April 2018

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 4

Lektüre 2
Step 1
Step 2
Step 3
Step 4
Step 5
Übung: Stemming als Möglichkeit der fehlertoleranten Recherche

LE 04: Regelbasierte linguistische Verfahren