Und so kommen Sie ins Spiel:

Übung 1

Die folgenden beiden Dokumente sollen automatisch einer der drei Klassen der Klassifikation unten zugeordnet werden. Ermitteln Sie für ein statisches Verfahren, in welche Klasse die beiden Dokumente eingeordnet werden.

Dokument 1: Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin einen Kuss. Das wollte der Kommissar mit Gewalt verhindern.

Dokument 2: Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin

Klasse/Attribut Märchen Krimi Schnulze
Fee Mord Liebe
  Hexe Kommissar Sehnsucht
  „und wenn sie nicht gestorben sind…“ Gewalt Kuss
  Prinzessin Kanone Arzt
  Grimm, Wilhelm Christie, Agatha Courths-Mahler, Hedwig

Übung 2

Das Dokument 2 soll automatisch einer der drei Klassen der Klassifikation oben (Märchen, Krimi, Schnulze) zugeordnet werden. Ermitteln Sie für ein dynamisches, lernendes Verfahren, in welche Klasse das Dokument eingeordnet wird. Das Verfahren setzt den Naiven Bayes Algorithmus ein.

Dokument 2: Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin

Informationen zum Trainingsbestand:

Tipp: Sie können sich an dem folgenden Beispiel für einen Spamfilter orientieren.

Im Trainingsbestand sind 2 Emails mit dem Wort „Kuss “ der Klasse Spam zugeteilt. „Kuss“ kommt in 50 Emails vor, die kein Spam sind.

2/50 -> 0,04
Die Wahrscheinlichkeit, dass das Wort „Kuss “ in Emails vorkommt, die der Klasse Spam zugeordnet wurden, liegt bei 0,04

50/2 -> 25 Die Wahrscheinlichkeit, dass das Wort „Kuss “ in Emails vorkommt, die der Klasse kein Spam zugeordnet wurden, liegt bei 25

VERFEINERUNG durch Berücksichtigung des gesamten Bestandes: insgesamt sind im gesamten Trainingsbestand nur 20 Mails der Klasse Spam zugeteilt und 80 Mails sind kein Spam.
= 20/100 ? 0,2 Anteil Spam
= 80/100 ? 0,8 Anteil kein Spam

NEUE FORMEL 0,2*0,04 = 0,008 ist die Wahrscheinlichkeit, dass eine neue Mail, die „Kuss“ enthält, Spam ist.
0,8*25 = 20 ist die Wahrscheinlichkeit, dass eine neue Mail, die „Kuss“ enthält, kein Spam ist.


Stand: 06. Juni 2018

< Seite drucken >
< Zum Seitenanfang >

STEP 1

Einführung

STEP 2

Initialaufgabe

STEP 3

Lektüre 1

STEP 4

Lektüre 2
Step 1
Step 2
Step 3
Step 4
Step 5
Übung

LE 10: Dokumentklassifikation