Schritt 1

Schritt 2

Schritt 3

Schritt 4

Schritt 5

Schritt 6

Schritt 7

Sie sind hier

 

Einführung

Vortrag: S. 1

Vortrag: S. 2

Vortrag: S. 3

Aufgabe 1

Aufgabe 2

Aufgabe 3



Aufgabe 1: Stemming

Mario Schreiber ist verärgert: Täglich erhält er mindestens 30 e-mails, die er nicht will - Spams. "Ich weiß genau, dass ich kürzlich auf eine Mail im Archiv gestoßen bin, die Tipps gegen Spams gibt." - sagt ihm Rainer Fuchs. Mario Schreiber ruft das E-Mail-Archiv von WissOrg auf. Da er weiß, dass weit über die Hälfte der Texte englischsprachige e-mails sind, gibt er ein:

problems with spams in e-mails

Er findet nichts.

"Tja," sagt Herr Fuchs, "genau das wollte ich in meinem Vortrag deutlich machen: Würden wir ein Stemming-Programm beim Indexieren unseres E-Mail-Archivs anwenden, hätten Sie das Dokument gefunden."

Hier ist der Anfang der e-mail:
Spam solutions and many other e-mail management tips: This is a document on how to avoid spam. Spam isn't a problem for me, and it shouldn't be a problem for you. Just follow these steps:

Mario Schreiber liest den Text und sagt pikiert: "Wieso - hätt' ich doch finden müssen ..."


So kommen Sie ins Spiel:

Übernehmen Sie die Rolle von Rainer Fuchs.

  1. Zeigen Sie anhand dieses Demo-Programms von Porter's Stemming-Algorithmus, wie sich der 'Stemmer' auf die Indexierung der e-mail und auf die Suchformulierung von Mario Schreiber ausgewirkt hätte. Sie können die Mail und die Suchformulierung in das Fenster der Demo kopieren.
  2. Erklären Sie Herrn Schreiber, warum die e-mail über Spams gefunden worden wäre, hätte das Indexierungsprogram bei WissOrg einen solchen Stemmer.
  3. Bauen Sie gedanklich in das Stemming-Programm eine Stoppwortliste ein: Was würde jetzt in dem Index zu der e-mail stehen? Wie sieht nun Mario Schreibers Suchformulierung aus? Bitte halten Sie Ihre Ergebnisse schriftlich fest.


Seitenanfang


zurück weiter: Aufgabe 2

Stand: 20 August 2003