Thema:

Linguistische Verfahren : Morphologische Grundlagen

Protokoll der Sitzung vom:

07.04.2005

Arbeitsauftrag:

Initialaufgabe: Beurteilung und Vergleich von intellektuell und maschinell erstellten Thesauri/Indices mit Suchbegriffen von Benutzern; Vorbereitung auf anschliessende Diskussion

Verlauf unserer Diskussion:

  • Thesaurus: Für den Benutzer ist die Namenssuche sehr schwer, da Benutzer meist nicht den Nachnamen vor den Vornamen ziehen, wie es im Thesaurus der Fall ist. Im Thesaurus werden nur Hauptwörter ("Substantive") als Deskriptoren vergeben, so dass ein Nutzer niemals mit Verben ("Tu-Wörtern" ;-) ) zu einem Sucherfolg kommen würde.
  • maschineller Index: Das größte Manko des maschinellen Indexes ist, dass er nur auf das vorliegende Textmaterial zurückgreifen kann, somit keine Übersetzungen möglicher, vorhandener, englischer Worte liefert, noch dass er intellektuell Komposita ergänzen oder zerlegen könnte. Von möglichen Schreibfehlern in den Textvorlagen, die in den Index gelangen könnten, wollen wir garnicht weiter sprechen...
  • aufgekommene Frage während der Diskussion:
  • Warum wird der Eintrag "Bruder-Schwester-Verhältnis" im Index großgeschrieben? Der Grund dafür ist, das die "Indexierungssoftware" den Ausdruck als Phrase ansieht und darum die durch Bindestriche verbundenen Einzelbegriffe "kapitalisiert" (Substantiv: Kapitalisierung; von Kapitälchen = Großbuchstaben)
  • Bei welcher Methode würde Mario Schreiber bessere Ergebnisse erzielen? Höchstwahrscheinlich mit dem automatischen Index, da dieser näher am natürlichen Sprachgebrauch ist (da er ja aus natürlichen Texten gewonnen wird), als es ein Thesaurus ist, welcher immer ein künstliches Sprachprodukt darstellt.
  • Die Gefahr beim automatischen Index (sprich: einer Volltextsuche) ist, dass der Benutzer aufgrund eines Glückstreffers denken könnte, dass dies das einizge Dokument sei, welches für ihn relevant ist. Dadurch wäre automatisch der Recall sehr schlecht.

Korrigierte Arbeitsergebnisse:

Zu der Hausaufgabe wurden folgende Anmerkungen gemacht:

  • Die Stichwortnummer wird nur einmal (also pro Datei) angelegt. Als Eselsbrücke könnte man sich das Schlüsselprinzip der relationalen Datenbank vorstellen.
  • Die vierte Spalte des invertierten Dateisystems "Zusatzinfo z.B. Gewicht" kann nur intellektuell erarbeitet werden. Die Maschine kann dies nur leisten, wenn die Besonderheit der Textstelle durch die Textstruktur (z.B. eine Überschrift) abgeleitet werden kann.
  • Graphische Darstellungen (wie z.B. in der HA zu LE 2 gefordert) sind immer abstrahierte Darstellungen und stellen niemals die Realität dar.

Neu gelernte Inhalte:

In der Stunde wurde die LE 3 besprochen.
Die Morphologie ist eine Fachrichtung der Linguistik. Morphologische Kenntnisse können einen Beitrag zur Verbesserung maschinell erstellter Indices leisten.
Die Informationslinguistik beschäftigt sich mit diesen Methoden und Verfahren. Weitere Gebiete der Linguistik die bei der automatischen Inhaltserschließung eine Rolle spielen sind:

  • Grammatik (Beschreibung der formalen Regeln einer Sprache)
  • Syntax (Satzbaulehre)
  • Semantik (Bedeutungslehre) -> Lexikologie (Wortschatzlehre)
  • Phonetik (Lehre von der Erzeugung, Übertragung und Rezeption [Aufnahme] menschlicher (Sprach-)laute
  • Morphologie (Lehre von der Wortbildung und -struktur)
  • weitere Inhalte sind der Lektüre der LE 3 zu entnehmen: Lektüre-LE3

Das wichtigste Fazit aus der Sitzung:

Die Verfahren der Linguistik können die Möglichkeit geben, anhand der objektiven Betrachtung eines Sprachsystems, die Arbeitsweise der automatischen Indexierung zu verbessern. So können unter Umständen Erkenntnisse über gewisse Gesetzmäßigkeiten in der jeweiligen Sprache eingesetzt werden, um eine automatische Erweiterung des Indexes zu erreichen: Z.B. wenn man der Maschine aufgrund von linguistischen Beobachtungen "erklären" kann, wie sie Komposita im Deutschen auseinander zu nehmen hat.



Datum:07.04.2005
Protokollant:Florian Schulze

Protokoll