Übung 1
Übung 2

Übung 1: Berechnung von Termgewichten

Testen Sie nun, ob Sie Termgewichte berechnen können.

In einer Datenbank sind 10.000 Dokumente zum Thema 'Informationsmarkt' gespeichert. Der Schwellenwert, den die Stichwörter in diesen Dokumenten überschreiten müssen, um als Indexate für das Retrieval zur Verfügung gestellt zu werden, sei 1.

In Dokument 1 kommt E-Learning 7 x vor und Informationsmarkt kommt 10 x vor. Das Dokument hat 1.000 Wörter.

In Dokument 2 kommt E-Learning 20 x vor und Informationsmarkt kommt 5 x vor. Das Dokument hat nur 500 Wörter.

Insgesamt finden sich in der Datenbank 500 Dokumente, in denen E-Learning vorkommt und 5.000 Dokumente, in denen Informationsmarkt vor kommt.

Arbeitsschritte:
  1. Berechnen Sie zunächst nichts. Sondern schätzen Sie erst, welches Stichwort das höchste und welches Stichwort das niedrigste Gewicht erhält, wenn nur die Termfrequenz berücksichtigt wird. Machen Sie eine Rangliste von 1-4 für "E-Learning" in Dokument 1 und 2 und für "Informationsmarkt" in Dokument 1 und 2. Begründen Sie Ihre Vermutung.

  2. Nun schätzen Sie bitte: Welches Stichwort wird durch eine nachträgliche Berücksichtigung der inversen Dokumenthäufigkeit ein höheres Gewicht bekommen? Begründen Sie Ihre Vermutung.

  3. Errechnen Sie nun unter Berücksichtigung der Termfrequenz und der inversen Dokumenthäufigkeit für die beiden Dokumente 1 und 2 die Gewichte für die Stichwörter "E-Learning" und "Informationsmarkt". Verwenden Sie jeweils die logarithmischen Formeln. Werden alle Stichwörter in den Index aufgenommen?


Übung 2: Maschinelle Selektion von inhaltsrelevanten Indexaten

Bitte überlegen Sie sich alle Arbeitsschritte, die ein Programm bei der automatische Indexierung eines Textes durchläuft. Verwenden Sie einen der 2 unten verlinkten Beispieltexte. Das Programm soll inhaltsrelevante Indexate für den Beispieltext generieren, auf die der Anwender bei einer Recherche zugreifen kann. Berücksichtigen Sie Ihre Kenntnisse über

Klären Sie zunächst,

Klären Sie dann im Detail, welche Schritte das Programm unternehmen muss:

Für diese Aufgabe müssen Sie keine Programmierkenntnisse haben. Aber Sie müssen dem Programmierer verdeutlichen, was sein Programm leisten muss. Beschränken Sie sich auf die Abläufe, die Ihnen als Informationsexperten im Sinne einer guten Indexierungsqualität wichtig sind. Und denken Sie dran: "Ein Indexterm ist dann ein guter Indexterm, je häufiger er pro Dokument in seiner Grundform und seinen Synonymen auftritt und je seltener er in seiner Grundform und seinen Synonymen pro Dokumentkollektion vorkommt." (Quelle: Thomas Bunk: "Deskriptoren, Stoppwortlisten und kryptische Zeichen". In: IWP 59 (2008) 5, S. 285.)

Visualisieren Sie Ihre Vorstellung in Form eines Flussdiagramms und erläutern Sie dieses schriftlich. In der Informatik werden Flussdiagramme zur Kommunikation zwischen Auftraggebern von Softwareprodukten und Softwareentwicklern eingesetzt.

Verwenden Sie

(Quelle für die Symbolgrafiken: Wikipedia: Programmablaufplan)

Beispieltext 1
Beispieltext 2

PapDesigner ist ein kleines Programm zur Erstellung von Programmablaufplänen. Für Studierende öffentlicher Bildungseinrichtungen steht es zum kostenlosen Download zur Verfügung.



Stand: 17. November 2015

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 4

Lektüre 2
Step 1
Step 2
Step 3
Step 4
Step 5
Übungen

LE 06: Statistische Verfahren