Thema:
Linguistische Verfahren : Morphologische Grundlagen
Protokoll der Sitzung vom:
07.04.2005
Arbeitsauftrag:
Initialaufgabe:
Beurteilung und Vergleich von intellektuell und maschinell erstellten
Thesauri/Indices mit Suchbegriffen von Benutzern; Vorbereitung auf
anschliessende Diskussion
Verlauf unserer Diskussion:
- Thesaurus: Für den Benutzer ist die Namenssuche sehr schwer, da
Benutzer meist nicht den Nachnamen vor den Vornamen ziehen, wie es im
Thesaurus der Fall ist.
Im Thesaurus werden nur Hauptwörter ("Substantive") als Deskriptoren
vergeben, so dass ein Nutzer niemals mit Verben ("Tu-Wörtern" ;-) ) zu
einem Sucherfolg kommen würde.
- maschineller Index: Das größte Manko des maschinellen Indexes
ist, dass er nur auf das vorliegende Textmaterial zurückgreifen kann,
somit keine Übersetzungen möglicher, vorhandener, englischer Worte
liefert, noch dass er intellektuell Komposita ergänzen oder zerlegen
könnte. Von möglichen Schreibfehlern in den Textvorlagen, die in den
Index gelangen könnten, wollen wir garnicht weiter sprechen...
- aufgekommene Frage während der Diskussion:
- Warum wird der
Eintrag "Bruder-Schwester-Verhältnis" im Index großgeschrieben? Der
Grund dafür ist, das die "Indexierungssoftware" den Ausdruck als Phrase
ansieht und darum die durch Bindestriche verbundenen Einzelbegriffe
"kapitalisiert" (Substantiv: Kapitalisierung; von Kapitälchen =
Großbuchstaben)
- Bei welcher Methode würde Mario Schreiber bessere Ergebnisse erzielen? Höchstwahrscheinlich mit dem automatischen Index,
da dieser näher am natürlichen Sprachgebrauch ist (da er ja aus
natürlichen Texten gewonnen wird), als es ein Thesaurus ist, welcher
immer ein künstliches Sprachprodukt darstellt.
- Die Gefahr beim automatischen Index (sprich: einer Volltextsuche)
ist, dass der Benutzer aufgrund eines Glückstreffers denken könnte,
dass dies das einizge Dokument sei, welches für ihn relevant ist.
Dadurch wäre automatisch der Recall sehr schlecht.
Korrigierte Arbeitsergebnisse:
Zu der Hausaufgabe wurden folgende Anmerkungen gemacht:
- Die Stichwortnummer wird nur einmal (also pro Datei)
angelegt. Als Eselsbrücke könnte man sich das Schlüsselprinzip der
relationalen Datenbank vorstellen.
- Die vierte Spalte des invertierten Dateisystems "Zusatzinfo z.B.
Gewicht" kann nur intellektuell erarbeitet werden. Die Maschine kann
dies nur leisten, wenn die Besonderheit der Textstelle durch die
Textstruktur (z.B. eine Überschrift) abgeleitet werden kann.
- Graphische Darstellungen (wie z.B. in der HA zu LE 2 gefordert)
sind immer abstrahierte Darstellungen und stellen niemals die Realität
dar.
Neu gelernte Inhalte:
In der Stunde wurde die LE 3 besprochen.
Die Morphologie ist eine Fachrichtung der Linguistik. Morphologische Kenntnisse können einen Beitrag zur Verbesserung maschinell erstellter Indices leisten.
Die Informationslinguistik beschäftigt sich mit diesen Methoden und
Verfahren. Weitere Gebiete der Linguistik die bei der automatischen Inhaltserschließung eine Rolle spielen sind:
- Grammatik (Beschreibung der formalen Regeln einer Sprache)
- Syntax (Satzbaulehre)
- Semantik (Bedeutungslehre) -> Lexikologie (Wortschatzlehre)
- Phonetik (Lehre von der Erzeugung, Übertragung und Rezeption [Aufnahme] menschlicher (Sprach-)laute
- Morphologie (Lehre von der Wortbildung und -struktur)
- weitere Inhalte sind der Lektüre der LE 3 zu entnehmen: Lektüre-LE3
Das wichtigste Fazit aus der Sitzung:
Die
Verfahren der Linguistik können die Möglichkeit geben, anhand der
objektiven Betrachtung eines Sprachsystems, die Arbeitsweise der
automatischen Indexierung zu verbessern. So können unter Umständen Erkenntnisse über gewisse
Gesetzmäßigkeiten in der jeweiligen Sprache eingesetzt werden, um eine automatische
Erweiterung des Indexes zu erreichen: Z.B. wenn man der Maschine
aufgrund von linguistischen Beobachtungen "erklären" kann, wie sie
Komposita im Deutschen auseinander zu nehmen hat.
Datum:07.04.2005
Protokollant:
Florian Schulze