Thema:

Lexikonbasierte linguistische Verfahren

Protokoll der Sitzung vom:

21.04.2005

Arbeitsauftrag:

Feedback zur letzten Hausaufgabe (Initialaufgabe) (Regelbasierte Verfahren) Aufgabe zur LE 5 Lexikonbasierte Verfahren

Verlauf unserer Diskussion:

Es bestand die Aufgabe die Initialaufgabe in Gruppenarbeit zu lösen.

Die Ergebnisse: 1. Was genau macht das Programm?

Das Programm beinhaltet zwei Versionen: die Wörterbuchbasierte Indexierung mit Vorzugsbenennung und die Wörterbuchbasierte Indexierung ohne Vorzugsbenennung. Die Indexierung mit Vorzugsbenennung funktioniert so: die in dem zu indexierenden Dokument enthaltenen Stichwörter werden zunächst vom Programm ohne Stoppwörter aufgeführt.Danach werden die Wörter in der Grundform oder unter ihrer Vorzugsbenennung vom Programm indexiert. Die Stoppwörter entfallen. Anschließend werden die Wörter in allen möglichen Wortformen indexiert Weiterhin stellt das Programm Indexate auf der Grundlage eines Wörterbuchs bzw. eines Lexikons her. Wird vom Programm ein im Wörterbuch verzeichnetes Wort gefunden, dann wird es bei der Indexierung mit Vorzugsbenennung in seiner Grundform oder unte der Vorzugsbenennung indexiert. Bei der Indexierung ohne Vorzugesbenennung werden alle möglichen Wortformen indexiert.

2. Welche Indexierungsergebnisse sind überraschend?

Bei beiden Programmen werden Mehrwortbegriffe indexiert. Bei der Indexierung mit Vorzugsbenennung wird aus dem Stichwort "Unterrichtseinheit" Unterricht, Einheit und Unterrichtseinheit. Es werden Komposita in ihre Bestandteile zerlegt, und es werden Synonyme erkannt. Z.B. wird das Wort "Benutzerfreundlichkeit" nicht indexiert, aber das Wort "Usability" als Synonym. (obwohl es nicht im Dokument erscheint) Die Indexierung ohne Vorzugsbenennung indexiert auch unterschiedliche Schreibweisen eines Wortes, wie es bei "allgemeingültig" der Fall ist. (z.B. allgemein gültig) Es werden alle Wortformen eines Wortes indexiert.

Korrigierte Arbeitsergebnisse:

Was genau macht das Programm? (Initialaufgabe zur LE Regelbasierte Verfahren)

Das Simulationsprogramm kann nicht erkennen ob es sich um eine Grundform oder Stammform handelt, es schneidet die Suffixe ab. Alle Regelbasierten Computerprogramme haben kein morphologisches Wissen. Fürs Deutsche ist das Programm nicht so gut, es ist besser fürs Englische. Dadurch erhält man auch sinnvollere Ergebnisse. Beim Deutschen gibt es Probleme, besonders bei Umlauten oder dass die Genitivform nicht umgewandelt wird. Namen werden auch nicht aufgeführt und man kann nicht trunkieren.

Neu gelernte Inhalte:

Präsentation des Porter-Stemming-Algorithmus.

Der Porter Stemmer Algorithmus ist ein verbreiteter Algorithmus der Computerlinguistik zum automatischen Zurückführen von Wörtern auf ihren Wortstamm (Stemming). Der Algorithmus basiert auf einer Menge von Verkürzungsregeln, die so lange auf ein zu stemmendes Wort angewandt werden, bis dieses eine Minimalanzahl von Silben aufweist. Abgehängt wird nur wenn die Wortlänge ausreichend ist. Wie funktioniert das Programm?

Maßgeblich ist genaugenommen nicht die Anzahl der Silben, sondern die Anzahl der Vokal-Konsonanten-Sequenzen. Jedes Wort lässt sich als eine Zeichenkette der Form [C](VC)m[V] interpretieren, wobei C für eine Folge von einem oder mehreren Konsonanten und V für eine Folge von einem oder mehreren Vokalen steht.

Das wichtigste Fazit aus der Sitzung:

Das Programm kann nur umsetzen, was in dem Lexikon eingetragen ist. Das Lexikion hinter einem Indexierungsprogramm ist aufwändig gestaltet und bedarf intensive Pflege. Ziel von Indexierungsprogrammen ist es der intellektuellen Indexierung so nahe wie möglich zu kommen.



Datum:21.04.2005
Protokollant:Stefanie Mohr

Protokoll