PROTOKOLL
der Sitzung vom 12. November 2003
Thema: Linguistische Verfahren (Fazit)
Anhand der Aufgabe 3
(Schritt 7 der Lerneineit 4) wurde die Lerneinheit 4 „Linguistische Verfahren“ wiederholt, vertieft und zusammengefasst.
Dies geschah anhand folgender Fragestellungen:
- Anwendungszwecke linguistischer Verfahren
- Regelbasierte Verfahren
- Lexikonbasierte Verfahren
- Fazit
- Weiteres Vorgehen
1. Anwendungszwecke linguistischer Verfahren
- eignen sich zur Aufbereitung des Index
- durch Stemming bzw. Lemmatisierung können Wortformen auf ihre jeweilige Grundform reduziert werden (Grundformreduktion)
- dadurch wird automatisch die Wortformenvielfalt reduziert
- was wiederum den automatisch generierten Index verkleinert
- Stemming bzw. Lemmatisierung lässt sich auch bei der Suchanfrage einsetzen
- dies erhöht dann die Trefferquote, da eine Suche mit der Grundform alle Formen findet
- durch eine Wortformenreduktion lässt sich Redundanz vermeiden
- letzendlich hat der Index durch die Wortformenreduktion eine geringere Datenmenge, was natürlich sinnvoller ist
2. Regelbasierte Verfahren
Regelbasierte Verfahren sind meist einfache Computerprogramme, die mit Hilfe von festgelegten Regeln ein Stemming durchführen.
Beispiel: Porter-Algorithmus (Demo)
Vorteile
- diese Programme sind sehr simpel, dadurch einfach zu automatisieren und leicht in vorhandene IT-Strukturen zu implementieren
- bei regelbasierte Verfahren gelten für alle Textformen dieselben Regeln
- alle Suffixe können durch entsprechende Regeln abgetrennt werden
- keine Pflegeaufwand, einmal erstellte Regeln bleiben immer gültig, dadurch entstehen keine unkalkulierbaren Folgekosten
- Preis-Leistungs-Verhältnis ist gut einschätzbar, da hier lediglich einmaliger Aufwand (Anschaffung bzw. Programmierung) berücksichtigt werden muss
- funktioniert sehr gut für die englische Sprache, weil wir es hier mit regelmäßiger Morphologie zu tun haben
Nachteile
- eine gewisse Fehlerquote lässt sich nicht vermeiden (die Verringerung der Fehlerquote steht in keinem Verhältnis zu dem zu betreibenden Aufwand)
- Regeln gelten für nicht für einzelne Wortklassen, das Verfahren kann nicht zwischen Substantiv und Verb unterscheiden (Bsp. Schulen und schulen → SCHUL)
- durch das fehlende morphologisches Verständnis ist sowohl Over- als auch Understemming kaum vermeidbar
- funktioniert nicht so gut für die deutsche Sprache (aufgrund der unregelmäßigen Morphologie)
- eingeschränkte Leistungsfähigkeit, das Verfahren kann
- Präfixe nicht berücksichtigen
- Synonyme und Relationen nicht erkennen
- Komposita nicht zerlegen
- Fremdwörter und Eigennamen nicht erkennen
- keine Übersetzungen anbieten
- keine Phrasenerkennung
3. Lexikonbasierte Verfahren
Lexikonbasierte Verfahren führen eine Lemmatisierung (Wortform reduziert auf Grundform) auf Grundlage von Vergleichswortlisten (Lexika) durch.
Beispiel: IDX von der Firma Softex
Vorteile
- lexikonbasierte Verfahren funktionieren für jede Sprache gleich gut
- je höher die Qualität der Lexika, desto geringer die Fehlerquote
- Synonyme können ausgewertet werden
- die Qualität des Suchergebnisses ist höher
- kann eine Übersetzungskomponente enthalten
- hohe Leistungsfähigkeit
- Präfixe werden berücksichtigt
- Synonyme und Relationen werden erkannt
- Komposita können zerlegt werden
- Fremdwörter und Eigennamen werden erkannt
- Phrasen können erkannt werden
Nachteile
- lexikonbasierte Verfahren sind komplexe Programme
- deshalb muss mit einem erhöhten Aufwand bei der Implementierung gerechnet werden
- die Anschaffung des Wörterbuches/der Wörterbücher kann sich ebenso als sehr aufwendig herausstellen
- je höher der Aufwand für die einzelnen Positionen, desto besster das Gesamtergebnis
- die letztendliche Qualität ist deshalb schwer einschätzbar
- das Preis/Leistungs-Verhältnis ist schwer einschätzbar
- lexikonbasierte Verfahren müssen an verschiedenen Textgattungen angepasst werden (Wortschatz)
- durch den sehr hohen Pflegeaufwand (Lexika müssen ständig gepflegt werden) muss mit beträchtlichen Folgekosten gerechnet werden
4.Fazit
"Bei der Vielzahl und der Komplexität der Probleme, die die natürliche Sprache stellt, sind perfekte Lösungen entweder unverhältnismäßig aufwendig oder gegenwärtig gar nicht erreichbar. Es werden deshalb pragmatische Lösungen angestrebt, die in einem Umfeld, in dem es 100-prozentige Lösungen sowieso nicht gibt (das ideale Rechercheergebnis ist in der Praxis als Ziel nur Illusion), für den Zweck ausreichend erscheinen." (vgl.: Gerhard Knorz: "Computerlinguistische Ansätze")
Wir kamen zu dem Ergebnis, dass die beste Lösung eine Kombination aus beiden Verfahren ist.
z. B. LiSa (ein Produkt der IntraFind Software AG, zur Produktinformation)
aus der Produktinformation:
"Die linguistischen Verfahren basieren auf umfassenden Lexikonbeständen und zeichnen sich
durch eine stark prozedurale Orientierung der Algorithmen aus. Linguistische Ergebnisse
werden also hierbei, im Gegensatz zu vergleichbaren Verfahren, stärker über Prozeduren
"berechnet" als im Lexikon "nachgeschlagen".
Es ist, insbesondere für morphologisch komplexe Sprachen wie Deutsch, praktisch nicht
möglich, umfassende Lexika zu erstellen. Vor diesem Hintergrund arbeiten die linguistischen
Tools von IntraFind auf der Grundlage von Basislexika mit den morphologischen
Elementarbausteinen einer Sprache. Diese Bausteine können, ebenso wie die
kombinatorischen Regeln für diese Bausteine, mit einem hohen Vollständigkeitsgrad ermittelt
und angewandt werden.
Auf dieser Grundlage verfolgt IntraFind, im Gegensatz zu anderen Anbietern, nicht die
Strategie "je größer das Lexikon, desto leistungsfähiger das Verfahren" – was sich in der
Preisgestaltung kommerzieller Anbieter zeigt: je umfangreicher die Lexika, desto teurer wird
das angebotene System." (vgl.: Produktinformation)
5. Weiteres Vorgehen
- "Benchmarking" (Wie wenden anderer Unternehmen Verfahren der automatischen Inhaltserschließung an?)
- Erstellung eines Pflichtenheftes (speziell auf die Bedürfnisse von WissOrg ausgerichtet)
- Software-Evaluation
- Testen ausgesuchter Software, indem die automatische Indexierung mit einem definierten Rahmen von Dokumenten (z. B. Emails) erprobt wird
Zum weiteren Fortschritt stellten wir uns gegen Ende der Stunde (als Hausaufgabe) mit folgenden Fragen:
- Welche Probleme können linguistische Verfahren nicht lösen?
- Wo sind die Grenzen dieser Verfahren?
Die Lerneinheit 5 beschäftigt sich dazu mit statistischen Verfahren.
Datum: 15. November 2003
Autor: Silke Britz / Medok / 3. Semester / A