Übung 1
Übung 2

Übung 1: Berechnung von Termgewichten

Testen Sie nun, ob Sie Termgewichte berechnen können.

In einer Datenbank sind 10.000 Dokumente zum Thema 'Informationsmarkt' gespeichert. Der Schwellenwert, den die Stichwörter in diesen Dokumenten überschreiten müssen, um als Indexate für das Retrieval zur Verfügung gestellt zu werden, sei 1.

In Dokument 1 kommt E-Learning 7 x vor und Informationsmarkt kommt 10 x vor. Das Dokument hat 1.000 Wörter.

In Dokument 2 kommt E-Learning 20 x vor und Informationsmarkt kommt 5 x vor. Das Dokument hat nur 500 Wörter.

Insgesamt finden sich in der Datenbank 500 Dokumente, in denen E-Learning vorkommt und 5.000 Dokumente, in denen Informationsmarkt vor kommt.

Arbeitsschritte:
  1. Berechnen Sie zunächst nichts. Sondern schätzen Sie zunächst, welches Stichwort das höchste und welches Stichwort das niedrigste Gewicht erhält, wenn nur die Termfrequenz berücksichtigt wird. Machen Sie eine Rangliste von 1-4 für "E-Learning" in Dokument 1 und 2 und für "Informationsmarkt" in Dokument 1 und 2. Begründen Sie Ihre Vermutung.

  2. Nun schätzen Sie bitte: Welches Stichwort wird durch eine nachträgliche Berücksichtigung der inversen Dokumenthäufigkeit ein höheres Gewicht bekommen? Begründen Sie Ihre Vermutung.

  3. Errechnen Sie nun unter Berücksichtigung der Termfrequenz und der inversen Dokumenthäufigkeit für die beiden Dokumente 1 und 2 die Gewichte für die Stichwörter "E-Learning" und "Informationsmarkt". Verwenden Sie jeweils die logarithmischen Formeln. Werden alle Stichwörter in den Index aufgenommen?


 

Übung 2: Maschinelle Selektion von inhaltsrelevanten Indexaten

Bitte überlegen Sie sich anhand des beigefügten Beispieltextes die Arbeitsschritte, die ein Programm bei der automatische Indexierung eines deutschsprachigen Textes durchlaufen werden. Das Programm soll inhaltsrelevante Indexate für den Beispieltext generieren, auf die der Anwender bei einer Recherche zugreifen kann. Berücksichtigen Sie Ihre Kenntnisse über

Überlegen Sie, wie die genannten Verfahren ineinander greifen könnten.

Klären Sie bitte im Detail, welche Schritte das Programm unternehmen muss:

Für diese Aufgabe müssen Sie keine Programmierkenntnisse haben. Aber Sie müssen dem Programmierer verdeutlichen, was sein Programm leisten muss und dass Ihre Anforderungen umsetzbar sind.

Visualisieren Sie Ihre Vorstellung in Form eines Flussdiagramms. In der Informatik werden Flussdiagramme zur Kommunikation zwischen Auftraggebern von Softwareprodukten und Softwareentwicklern eingesetzt. Unten finden Sie zwei Beispiele für Flussdiagramme.



Stand: 21. April 2005

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 4

Lektüre 2
Step 1
Step 2
Step 3
Step 4
Step 5
Übungen

LE 06: Statistische Verfahren