Übung 1
Die folgenden beiden Dokumente sollen automatisch einer der drei Klassen der Klassifikation unten zugeordnet werden. Ermitteln Sie für ein statisches Verfahren, in welche Klasse die beiden Dokumente eingeordnet werden.
Dokument 1: Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin einen Kuss. Das wollte der Kommissar mit Gewalt verhindern.
Dokument 2: Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin
Klasse/Attribut | Märchen | Krimi | Schnulze |
---|---|---|---|
Fee | Mord | Liebe | |
Hexe | Kommissar | Sehnsucht | |
„und wenn sie nicht gestorben sind…“ | Gewalt | Kuss | |
Prinzessin | Kanone | Arzt | |
Grimm, Wilhelm | Christie, Agatha | Courths-Mahler, Hedwig |
Übung 2
Das Dokument 2 soll automatisch einer der drei Klassen der Klassifikation oben (Märchen, Krimi, Schnulze) zugeordnet werden. Ermitteln Sie für ein dynamisches, lernendes Verfahren, in welche Klasse das Dokument eingeordnet wird. Das Verfahren setzt den Naiven Bayes Algorithmus ein.
Dokument 2: Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin
Informationen zum Trainingsbestand:
Tipp: Sie können sich an dem folgenden Beispiel für einen Spamfilter orientieren.
Im Trainingsbestand sind 2 Emails mit dem Wort „Kuss “ der Klasse Spam zugeteilt. „Kuss“ kommt in 50 Emails vor, die kein Spam sind.
2/50 -> 0,0450/2 -> 25 Die Wahrscheinlichkeit, dass das Wort „Kuss “ in Emails vorkommt, die der Klasse kein Spam zugeordnet wurden, liegt bei 25
VERFEINERUNG durch Berücksichtigung des gesamten Bestandes: insgesamt sind im gesamten Trainingsbestand nur 20 Mails der Klasse Spam zugeteilt und 80 Mails sind kein Spam.
= 20/100 ? 0,2 Anteil Spam
= 80/100 ? 0,8 Anteil kein Spam
NEUE FORMEL
0,2*0,04 = 0,008 ist die Wahrscheinlichkeit, dass eine neue Mail, die „Kuss“ enthält, Spam ist.
0,8*25 = 20 ist die Wahrscheinlichkeit, dass eine neue Mail, die „Kuss“ enthält, kein Spam ist.