Linguistische Verfahren: Morphologische Grundlagen
07.04.2005
Die WissOrg-Mitarbeiter haben erkannt, dass die bloße Volltextinvertierung ihren Anforderungen an die Inhaltserschließung nicht entspricht. Um fundiertere Kritik üben zu können, vergleichen die Dokumentare in einigen Fällen die automatisch generierten Indexeintragungen mit den von ihnen vergebenen Thesaurus-Deskriptoren. Zusätzlich erfolgt ein Abgleich mit den Suchtermini, die Mario Schreiber für entsprechende Recherchen verwenden würde.
Herausgefunden werden sollen dabei
Bei der einfachen Volltextinvertierung fehlt jegliche terminologische Kontrolle; selbst wenn Treffer erzielt werden, entsprechen sie häufig nicht dem Gewünschten. Die Stichwörter werden nicht im Kontext angegeben, was für die Unterscheidung von Synonymen problematisch ist. Beispielsweise weiß man bei einem mit dem Begriff "cats" indexierten Dokument nicht, ob es von Tieren oder dem gleichnamigen Musical handelt.
Mario Schreiber verwendet ausschließlich Suchtermini in deutscher Sprache, die Eintragungen im Index erfolgen aber in der Originalsprache (z.B. "songs").
Der Index enthält auch Eintragungen im Singular, Mario Schreiber recherchiert aber nur mit Begriffen im Plural. Diese Problematik könnte zwar durch (evtl. auch automatisierte) generelle Rechtstrunkierung abgemildert werden, eine grundsätzliche Vermeidung wäre aber nicht möglich.
Schwierigkeiten ergeben sich bei der Verwendung von Komposita: Teilweise verwendet Mario Schreiber sie als Suchtermini, während im Index nur die einzelnen Wortbestandteile enthalten sind ("Katzenfutter" bzw. "katzen" und "futter"), teilweise ist es umgekehrt ("Bibliotheken" bzw. "bibliothekswesen"). Im ersten Fall könnte das Dokument theoretisch durch die Verknüpfung beider selbstständigen Wörter mit dem Boole'schen Operator AND gefunden werden, aber diese Lösung erscheint insofern nicht praktikabel, als sie sowohl mit einem höheren Arbeitsaufwand für den Recherchierenden verbunden wäre als auch ein entsprechendes Problembewusstsein erfordern würde, das nicht bei allen Mitarbeitern vorausgesetzt werden kann.
Das Programm erkennt keine Phrasen, nach denen Mario Schreiber aber gelegentlich recherchiert ("Brüder und Schwestern", "Bill Gates"). Besonders problematisch ist dies, wenn es sich bei den einzelnen Bestandteilen einer Phrase um Wörter mit eigener Bedeutung handelt (z.B. bill = Rechnung, gates = Tore).
Mario Schreiber hat in keiner Weise erfasst, dass der Thesaurus nur kontrolliertes Vokabular enthält. So verwendet er beispielsweise Substantive im Nominativ Plural oder Verben als Suchtermini.
Insgesamt zeigt der Vergleich, dass für Mario Schreiber bei der Volltextinvertierung zwar ein großer Informationsverlust auftreten, er aber dennoch signifikant bessere Ergebnisse als bei der derzeit angewandten intellektuellen Inhaltserschließung erzielen würde.
In der Aufgabe "Volltextinvertierung" sollte zunächst die invertierte Datei für das Stichwort "Mensch" ergänzt werden. Dabei ist zu beachten, dass für jedes Wort nur eine derartige Datei angelegt wird, die bei Bedarf - d.h. bei der Indexierung eines weiteren Dokuments, in dem der entsprechende Begriff enthalten ist - um eine Zeile erweitert wird. Allerdings wird die Stichwortnummer nicht wiederholt. In dem Gedicht Nr. 3 taucht das Wort "Mensch" zweimal auf, und zwar an den Positionen 2 und 28. Dementsprechend sieht die erweiterte invertierte Datei wie folgt aus:
Stichwortnr. | DocID | Position im Text | Frequenz | Zusatzinfos |
---|---|---|---|---|
10 | 1 | 10 | 1 | |
3 | 2 ; 28 | 2 |
Das Retrieval System sucht folgendermaßen nach dem Stichwort "Mensch":
Die Linguistik (Sprachwissenschaft) unterteilt sich in folgende Bereiche:
Im Gegensatz zur Pragmatik sind Morphologie, Semantik und Syntax normativ, d.h. sie unterliegen bestimmten Regeln. Z.B. folgt auf die kausale Präposition "wegen" ein Genitiv, nicht - wie im alltäglichen Sprachgebrauch üblich - ein Dativ.
Bei der Morphologie handelt es sich um die Lehre der Morpheme, die die kleinsten bedeutungstragenden Einheiten eines Wortes darstellen. Demenentsprechend lassen sich Wörter - sofern sie nicht schon selbst Morpheme sind, z.B. "ja" - in Morpheme unterteilen.
Un - freund - lich - keit
Un: negiert die Wortbedeutung (Derivation)
lich: Adjektivierung = Änderung der Wortform
keit: Substantivierung = Änderung der Wortform
Pferd - e
e: bewirkt die Umwandlung des Wortes von Nominativ Singular in Nominativ oder Genitiv Plural
sing-end
end: Änderung der Wortform in ein Verb (Partizip Präsens)
Die Morphologie unterteilt sich in folgende Bereiche:
Man unterscheidet freie und gebundene Morpheme. Erstere können alleine stehen, letztere nur in Verbindung
mit freien Morphemen.
Die gebundenen Morpheme werden auch als Affixe bezeichnet und nach ihrer Position im Wort unterschieden:
Fugenmorpheme stellen eine Besonderheit der deutschen Sprache dar. Sie verbinden mehrere Morpheme miteinander, ohne selbst Bestandteil eines dieser Wortbildungselemente zu sein. Ihre einzige Funktion besteht darin, für eine Sprachmelodie zu sorgen, die als angenehm empfunden wird.
Eine Verbesserung der automatischen Indexierung könnte z.B. durch das Eliminieren von Prä- und Suffixen erreicht werden. Schon bei letzteren ist allerdings Vorsicht geboten, da sich Bedeutungsänderungen ergeben können.
In der morphologischen Terminologiekontrolle (Wortformreduktion) werden verschiedene Wortformen auf ihre Grundform = unflektierte Wortform reduziert und diese wiederum auf ihre Stammform = Grundform ohne Derivative, z.B.
Wortform: Freundlichkeiten (Nominativ Plural)
Grundform: Freundlichkeit (Nominativ Singular)
Stammform: Freund
Vergleichsweise unproblematisch ist die automatische Reduktion von der Wort- auf die Grundform, da diese zumindest weitgehend regelkonform ist. Ungleich komplizierter gestaltet sich eine Reduktion von der Grund- auf die Stammform, bei der sich außerdem ungewollte Bedeutungsabstufungen ergeben können.
Die Berücksichtigung morphologischer Erkenntnisse für die automatische Indexierung kann zu einer erheblichen Verbesserung der Indexierungsqualität führen. Wichtig ist es hierbei, Regeln zu finden, die maschinell umsetzbar sind.