Mario Schreiber ist verärgert: Täglich erhält er mindestens 30 E-Mails, die er nicht will - Spams. "Ich weiß genau, dass ich kürzlich auf eine Mail im Archiv gestoßen bin, die Tipps gegen Spams gibt." - sagt ihm Rainer Fuchs. Mario Schreiber ruft das E-Mail-Archiv von WissOrg auf. Da er weiß, dass weit über die Hälfte der Texte englischsprachige E-Mails sind, gibt er ein:
problems with spams in e-mails |
Er findet nichts.
"Tja," sagt Herr Fuchs, "würden wir ein Stemming-Programm beim Indexieren unseres E-Mail-Archivs anwenden, hätten Sie das Dokument gefunden."
Hier ist der Anfang der E-Mail:
Spam solutions and many other e-mail management tips: This is a document on how to avoid spam. Spam isn't a problem for me, and it shouldn't be a problem for you. Just follow these steps: |
Mario Schreiber liest den Text und sagt pikiert: "Wieso - hätt' ich doch finden müssen ..."
Übernehmen Sie die Rolle von Rainer Fuchs.
- Erläutern Sie Mario Schreiber anhand dieses Demo-Programms (externe Site) von Porters Stemming-Algorithmus für englische Wörter, wie sich der 'Stemmer' auf die Indexierung der E-Mail und auf die Suchformulierung von Mario Schreiber auswirkt. Sie können die Mail und die Suchformulierung in das Fenster der Demo kopieren.
- Erklären Sie ihm, warum die E-Mail über Spams gefunden worden wäre, hätte das Indexierungs- und Retrievalprogramm bei WissOrg einen solchen Stemmer.
- Bauen Sie gedanklich in das Stemming-Programm eine Stoppwortliste ein: Was würde jetzt in dem Index zu der E-Mail stehen? Wie sieht nun Mario Schreibers Suchformulierung aus? Ist die Auswirkung der Stoppwortliste akzeptabel? Bitte halten Sie Ihre Ergebnisse schriftlich fest.
Bitte formulieren Sie Ihre Erläuterungen so, dass Mario Schreiber sie als Informationslaie versteht!
Stand: 1. März 2005
< Seite drucken >
< Zum Seitenanfang >
STEP 1 - Einführung | STEP 2 - Initialaufgabe | STEP 3 - Lektüre 1 | STEP 4 - Lektüre 2 | STEP 5 - Übung