Thema:
Lexionbasierte linguistische Verfahren
Protokoll der Sitzung vom:
21.04.2005
Arbeitsauftrag:
Nach der Besprechung der Vor- und Nachteile regelbasierter linguistischer Verfahren,
Nachteile: Fehleranfälligkeit, Fremdworte, Trennungen von Komposita
Vorteile: Sucherleichterung (Suchanfrage des Benutzers und die Dokumenten befinden sich sozusagen auf einer Ebene), Vorbereitung für andere Verfahren
war es die Aufgabe, sich mit einem Demoprogramm für lexikonbasierte linguistische Verfahren zu beschäftigen. Das Ziel war herauszubekommen wie das Programm genau funktioniert und was es im Gegensatz zu den regelbasierten Verfahren anders oder besser macht.
Verlauf unserer Diskussion:
Bei der Untersuchung des Demo-Programms auf Basis eines lexikonbasierten Verfahrens haben wir herausgefunden, dass dieses in vielen Punkten zuverlässiger arbeitet, als das regelbasierte Verfahren. Besonders im Bereich der Trennung von Kompositabildungen liegt es klar im Vorteil und kann Wörter, wie Leseförderung oder Lesesozialisation, in seine einzelnen Bestandteile zerlegen. Im Gegensatz zu regelbasierten Verfahren treten hier eher administrative Probleme auf.
Korrigierte Arbeitsergebnisse:
Bei den Indexierungsergebnissen konnten folgende Feststellungen gemacht werden:
- Es treten in Zusammenhang mit Bindestrichen in zusammengesetzten Wörtern Probleme auf. Allerdings gilt dieses nicht für alle Beispiele. Im Fall von Kinder- und Jugendliteratur entstehen im Index die Einträge Kinderliteratur, Jugendliteratur und Kinder- und Jugendliteratur.
- Das lexikonbasierte Verfahren kann Kompositabildungen richtig trennen. So entstehen aus den Wörtern Lesesozialisation, Leseanreize und Leseförderung, die natürlich komplett auch in den Index übernommen werden, zusätzlich die Indexate Lesen, Anreiz, Förderung und Sozialisation.
- Es befinden sich Rechtschreibfehler im Index, was natürlich aus Rechtschreibfehlern im Wörterbuch resultiert. Daraus entwickelt sich die Frage, ob ein solches Programm „typische“ Rechtschreibfehler abfangen können sollte?
- Das Programm kann durch gezielte Einträge im Wörterbuch Eigennamen erkennen und im wörterbuchbasierten Index angeben.
Probleme im Zusammenhang mit dem lexikonbasierten Verfahren:
- Das Wörterbuch muss immer aktuell gehalten werden und Institutionen und Eigennamen besonders behandeln, was in einem kleinern Betrieb enormen Arbeitsaufwand bedeutet. Allerdings muss heutzutage kein Unternehmen mehr bei Null beginnen, da es Gruppen und Institutionen gibt, die sich mit genau dieser Thematik beschäftigen und Grundlagen schaffen. Standardwörterbücher für die deutsche oder englische Sprache kann man mittlerweile auf dem Markt kaufen.
- In diesem Programm wird entweder die Ansicht mit Vorzugsbenennung oder ohne Vorzugsbenennung geboten. Wobei sich die Ansicht dann entweder auf nur Substantive beschränkt oder jegliche Wortformen angeboten werden.
Neu gelernte Inhalte:
Durch den Zugriff auf Lexikoneinträge bei einem Indexierungsprogramm werden folgende Dinge ermöglicht:
- Reduktion von der Wortform auf die Grundform
- Sinnvolle Zerlegung von Komposita
- Phrasenerkennung und Phrasensuche
- Auflösung von Abkürzungen
- Anzeigen von Eigennamen
- Bindestrichergänzungen
Das wichtigste Fazit aus der Sitzung:
Das lexikonbasierte linguistische Verfahren kann im Gegensatz zu den regelbasierten linguistischen Verfahren einige Probleme mehr berücksichtigen.
Die Phrasensuche kann umgesetzt werden und Infixe können entfernt werden. Außerdem können Eigennamen im Index angeboten werden und Komposita können sinnvoll getrennt werden.
ABER, ein Programm was lexikonbasiert arbeitet ist nur so gut, wie das Wörterbuch auf das es zurückgreift.
Datum:21.04.2005
Protokollant:
Carolin Rohrssen