Thema:

Besprechung des Arbeitsauftrages zu den morphologischen Grundlagen, dann Einführung in die regelbasierten Verfahren.

Protokoll der Sitzung vom:

14.04.2005

Arbeitsauftrag:

Bitte nehmen Sie eine morphologische Analyse der folgenden Wortformen vor: · Benennen Sie die in den Wörtern enthaltenen Morphemarten · Ordnen Sie die enthaltenen Morphemkombinationen diesen Gebieten der Morphologie zu: o der Flexionsmorphologie o der Derivationsmorphologie oder der o Kompositabildung · Geben Sie die Grundform und die Stammform der Wörter an. Bitte analysieren Sie: Schwerstarbeit full-time job verurteilen happiest Schiffsreederei sings spielst running Buchhändlerlehre songs Bitte erläutern Sie, in welcher Hinsicht die von Ihnen analysierten morphologischen Besonderheiten für eine automatische Indexierung von Belang sein könnten!

Verlauf unserer Diskussion:

Die Analyse der Sprachwurzeln ist ungleich der grammatikalischen Analyse. Es gibt verschiedene Lösungsmöglichkeiten z.B. bei Schiffsreederei reede und reeder. Tipps für die Lösung: Deutsches Wörterbuch von Jacob Grimm http://wortschatz.uni-Leipzig.de

Korrigierte Arbeitsergebnisse:

Schwerstarbeit : schwer lexikalisches Morphem st Fugenmorphem (Infix) arbeit lexikalisches Morphem Kompositabildung Grundform : Schwerstarbeit Stammform : Schwerstarbeit full-time job : full lexikalisches Morphem time lexikalisches Morphem job lexikalisches Morphem Kompositabildung Grundform : full-time job Stammform : full-time job verurteilen : ver Derivat (Präfix) urteil lexikalisches Morphem en Flexiv (Suffix) Flexionsmorphologie Grundform : verurteilen Stammform : urteil happiest : happy lexikalisches Morphem (ie)st Flexiv (Suffix) Flexionsmorphologie Grundform : happy Stammform : happy Schiffsreederei : Schiff lexikalisches Morphem s Fugenmorphem (Infix) reeder lexikalisches Morphem Kompositabildung ei Derivat (Suffix) Derivationsmorphologie Grundform : Schiffsreederei Stammform : Schiffsreeder sings : sing lexikalisches Morphem s Flexiv (Suffix) Flexionsmorphologie Grundform : sing Stammform : sing spielst : spiel lexikalisches Morphem st Flexiv (Suffix) Flexionsmorphologie Grundform : spiel Stammform : spiel running : run lexikalisches Morphem (n)ing Flexiv (Suffix) Flexionsmorphologie Grundform : run Stammform : run Buchhändlerlehre : Buch lexikalisches Morphem händler lexikalisches Morphem lehre lexikalisches Morphem Kompositabildung Grundform : Buchhändlerlehre Stammform : Buchhändlerlehre songs : song lexikalisches Morphem s Flexiv (Suffix) Flexionsmorphologie Grundform : song Stammform : song Herausforderungen und Ergebnisse für die automatische Indexierung: Die Reduzierung auf die Stammform ist schwieriger zu erreichen als die Reduzierung auf die Grundform. Die Lexikalische Grundform ist ungleich der grammatikalischen Grundform z.B. lehren, wobei dies schon die grammatikalische Grundform ist. Bei der linguistischen Grundform wird noch auf lehr reduziert. Außerdem stellen die Kompositazerlegung und die Fugenmorpheme ein Problem dar. Suffixe sind einfacher zu behandeln als Präfixe, weil es zu keiner Sinnveränderung kommt. Die Problembehandlung ist im Englischen wesentlich einfacher als im Deutschen.

Neu gelernte Inhalte:

Regelbasierte Verfahren: Stemming: Das Weak Stemming beschreibt die Rückführung auf die Grundform, wobei hingegen das Strong Stemming die Rückführung auf die Stammform beschreibt. Gefahren des Stemmings: Understemming:Es wird nicht genug abgetrennt vom Wort und so werden zwei Wörter mit gleichem Wortstamm nicht identisch im Index abgebildet. Overstemming: Wörter mit unterschiedlicher Bedeutung werden auf die gleiche Stammform reduziert, d.h. es wird zuviel abgetrennt. Anwendung am Beispieltext: Arbeitsauftrag: Entfernen Sie die Stoppworte und führen Sie mit Hilfe des Regelwerks ein Stemming durch: Ergebnis: Lediglich zwei Wörter sind betroffen. Danach stellt sich die Frage, wie müsste so ein Programm aussehen? Es müsste eine Stoppwortliste enthalten und es müsste typische Endungen abschneiden, dieses könnte sich dann nach dem Porter oder Kuhlen-Algorithmus richten. Hier werden Wortendungen (Buchstabenkombinationen) allein nach empirischen Gesichtspunkten abgetrennt. Es werden nur absolut sichere Möglichkeiten berücksichtigt. Die Unterscheidung von Konsonanten und Vokalen ist dabei auch wichtig. Eingabe des Beispieltextes in eine Demo-Version: Zufriedenheit und Nutzen: Das Programm reduziert teilweise sinnvoll auf die Grundform, es kommt allerdings auch zu Fehlern. Im Großen und Ganzen kommt es kaum zu Änderungen. Das Programm reduziert die Vielfalt von Wortformen, im Idealfall bis auf die Grundform. Vorteil ist auch, das man auf das Trankieren verzichten kann und oder-Recherchen nicht mehr notwendig sind.

Das wichtigste Fazit aus der Sitzung:

Die Anwendung eine Stemming-Programms verbessert die Effektivität der automatischen Indexierung nicht erheblich und ist so lediglich "nice to have".



Datum:14.04.2005
Protokollant:Britta Neuman

Protokoll