PROTOKOLL
der Sitzung vom 12. November 2003

Thema: Linguistische Verfahren (Fazit)

Anhand der Aufgabe 3 (Schritt 7 der Lerneineit 4) wurde die Lerneinheit 4 „Linguistische Verfahren“ wiederholt, vertieft und zusammengefasst.

Dies geschah anhand folgender Fragestellungen:

  1. Anwendungszwecke linguistischer Verfahren
  2. Regelbasierte Verfahren
  3. Lexikonbasierte Verfahren
  4. Fazit
  5. Weiteres Vorgehen

1. Anwendungszwecke linguistischer Verfahren

2. Regelbasierte Verfahren

Regelbasierte Verfahren sind meist einfache Computerprogramme, die mit Hilfe von festgelegten Regeln ein Stemming durchführen.
Beispiel: Porter-Algorithmus (Demo)

Vorteile
Nachteile

3. Lexikonbasierte Verfahren

Lexikonbasierte Verfahren führen eine Lemmatisierung (Wortform reduziert auf Grundform) auf Grundlage von Vergleichswortlisten (Lexika) durch.
Beispiel: IDX von der Firma Softex

Vorteile
Nachteile

4.Fazit

"Bei der Vielzahl und der Komplexität der Probleme, die die natürliche Sprache stellt, sind perfekte Lösungen entweder unverhältnismäßig aufwendig oder gegenwärtig gar nicht erreichbar. Es werden deshalb pragmatische Lösungen angestrebt, die in einem Umfeld, in dem es 100-prozentige Lösungen sowieso nicht gibt (das ideale Rechercheergebnis ist in der Praxis als Ziel nur Illusion), für den Zweck ausreichend erscheinen." (vgl.: Gerhard Knorz: "Computerlinguistische Ansätze")

Wir kamen zu dem Ergebnis, dass die beste Lösung eine Kombination aus beiden Verfahren ist.

z. B. LiSa (ein Produkt der IntraFind Software AG, zur Produktinformation)

aus der Produktinformation:
"Die linguistischen Verfahren basieren auf umfassenden Lexikonbeständen und zeichnen sich durch eine stark prozedurale Orientierung der Algorithmen aus. Linguistische Ergebnisse werden also hierbei, im Gegensatz zu vergleichbaren Verfahren, stärker über Prozeduren "berechnet" als im Lexikon "nachgeschlagen".
Es ist, insbesondere für morphologisch komplexe Sprachen wie Deutsch, praktisch nicht möglich, umfassende Lexika zu erstellen. Vor diesem Hintergrund arbeiten die linguistischen Tools von IntraFind auf der Grundlage von Basislexika mit den morphologischen Elementarbausteinen einer Sprache. Diese Bausteine können, ebenso wie die kombinatorischen Regeln für diese Bausteine, mit einem hohen Vollständigkeitsgrad ermittelt und angewandt werden.
Auf dieser Grundlage verfolgt IntraFind, im Gegensatz zu anderen Anbietern, nicht die Strategie "je größer das Lexikon, desto leistungsfähiger das Verfahren" – was sich in der Preisgestaltung kommerzieller Anbieter zeigt: je umfangreicher die Lexika, desto teurer wird das angebotene System." (vgl.: Produktinformation)

5. Weiteres Vorgehen

Zum weiteren Fortschritt stellten wir uns gegen Ende der Stunde (als Hausaufgabe) mit folgenden Fragen:

Die Lerneinheit 5 beschäftigt sich dazu mit statistischen Verfahren.

Datum: 15. November 2003
Autor: Silke Britz / Medok / 3. Semester / A