3 Lexikalische Semantik - ssg-bildung.ub.uni-erlangen.de [PDF]

Es gibt auch Gegenbeispiele, die wir aus Verspoors Dissertation zitieren. (vgl. ... Englisch. Sie kommt zu dem Ergebnis,

63 downloads 31 Views 3MB Size

Recommend Stories


Semantik Semantik
Be who you needed when you were younger. Anonymous

Semantik
We must be willing to let go of the life we have planned, so as to have the life that is waiting for

Dietrich Busse Art. Semantik Semantik
Keep your face always toward the sunshine - and shadows will fall behind you. Walt Whitman

Jenis-jenis Semantik | Mocopedia [PDF]
Nov 19, 2012 - Teori yang menmdasari dan dalam lingkunagn mana semantik dibahas membawa kita kepengenalan tentang jenis-jenis semantik. ...... sekitar tahun 626 M. Porselen dan guci yang berukuran besar biasanya digunakan dalam upacara keagamaan dan

Praktische Semantik
Stop acting so small. You are the universe in ecstatic motion. Rumi

İhlas Kavramının Semantik Analizi
Love only grows by sharing. You can only have more for yourself by giving it away to others. Brian

kalp kavramının semantik tahlili
Don’t grieve. Anything you lose comes round in another form. Rumi

Sprogteknologi og formel semantik
Sorrow prepares you for joy. It violently sweeps everything out of your house, so that new joy can find

Semantik von Programmiersprachen
Knock, And He'll open the door. Vanish, And He'll make you shine like the sun. Fall, And He'll raise

semantik der Binnenklammerung
Make yourself a priority once in a while. It's not selfish. It's necessary. Anonymous

Idea Transcript


Claudia Kunze / Lothar Lemnitzer

Computerlexikographie Eine Einführung

Gunter Narr Verlag Tübingen

Bibliografische Information der Deutschen Bibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

© 2007 · Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Internet: http://www.narr.de E-Mail: [email protected] ISBN 978-3-8233-6315-6

Inhalt 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

2 Das Lexikon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1 Begriffsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2 Lexikalische Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4 Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Lexikalische Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Lexikalisches Zeichen und lexikalisches System . . . . . . . . . . . . . . . . 2 Die Struktur des lexikalischen Zeichens . . . . . . . . . . . . . . . . . . . . . . . 3 Komponentielle Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Relationale Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Polysemie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Ambiguität und das Problem der Disambiguierung von Textwörtern 7 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16 16 19 26 40 44 58 60 60

4 Lexikalisches und enzyklopädisches Wissen . . . . . . . . . . . . . . . . . . 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Die Lexikon vs. Enzyklopädie-Debatte . . . . . . . . . . . . . . . . . . . . . . . . 3 Lexikalische und enzyklopädische Informationen in Wörterbüchern und Lexika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62 62 64 70 75 76

5 Wörterbuchstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 1 Analyse von Wörterbuchstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2 Parsing von Wörterbuchartikeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3 Kodierung von Wörterbuchartikelstrukturen . . . . . . . . . . . . . . . . . . . . 108 4 Standardisierung von Wörterbuchartikelstrukturen . . . . . . . . . . . . . . 121 5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6 Lexikalische und ontologische Ressourcen . . . . . . . . . . . . . . . . . . . 133 1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 2 Lexikalisch-semantische Wortnetze . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3 FrameNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 4 Ontologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

2

Inhalt

7 Lexikalische Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 2 Lexikalische Regeln in der Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 3 Lexikalische Regeln zur Behandlung von Sinnerweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 4 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 8 Lexikalische Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 2 Frequenzinformationen in Printwörterbüchern . . . . . . . . . . . . . . . . . . 186 3 Die Statistik von Häufigkeit und Verteilung . . . . . . . . . . . . . . . . . . . . 189 4 Morphologische Produktivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 5 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 6 Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 9 Morphologie für die Computerlexikographie . . . . . . . . . . . . . . . . . 201 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 2 Einige grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 3 Eine morphologische Wortgrammatik . . . . . . . . . . . . . . . . . . . . . . . . . 205 4 Morphologische Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 5 Morphologische Informationen in Wörterbüchern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 6 Systeme für die automatische morphologische Analyse . . . . . . . . . . 216 7 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 Akquisition lexikalischer Informationen . . . . . . . . . . . . . . . . . . . . . 230 Begriffliches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 Lexikonmodell und lexikalisches Zeichen . . . . . . . . . . . . . . . . . . . . . . 236 Lexikalische Kategorien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 Drei Arten lexikalischer Akquisition . . . . . . . . . . . . . . . . . . . . . . . . . . 242 Allgemeine Methodik der lexikalischen Akquisition . . . . . . . . . . . . . 252 Akquisition lexikalischer Daten durch Korpusanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 8 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 9 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 10 1 2 3 4 5 6 7

11 Mehrgliedrige lexikalische Einheiten . . . . . . . . . . . . . . . . . . . . . . . 278 1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 2 Kollokationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

Inhalt 3 4 5

3

Phraseme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

12 Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333

1 Einleitung

Für Jahrhunderte war das Handwerk der Wörterbucherstellung auf materielle Medien wie Pergament oder Papier und geeignete Schreibwerkzeuge angewiesen. Die Erfindung des Buchdrucks und, Jahrhunderte später, der Schreibmaschine, erleichterten das Handwerk selber und die Vervielfältigung und Verbreitung seiner Produkte. Dennoch blieb bis vor ca. dreißig Jahren der Zettelkasten der wesentliche Bezugspunkt der lexikographischen Arbeit: Wörterbücher entstanden durch die Kompilierung der von hunderten Beiträgern gesammelten Informationen. Der andere Bezugspunkt lexikographischer Arbeit war der Wörterbuchbenutzer, der in einem gedruckten Werk die Informationen finden sollte, die er benötigte, und das möglichst schnell. Platz war in gedruckten Werken das größte Problem. So entwickelte das lexikographische Handwerk über die Jahrhunderte ausgefeilte Techniken der Gewinnung und Darstellung der lexikographischen Informationen auf der zweidimensionalen Fläche der Buchseite. Es forderte und fordert dem Benutzer auch heute einiges an Kenntnissen und Fähigkeiten ab, die gerade benötigte Information in den meist nicht kleinen Druckwerken zu finden. Vor etwa 30 Jahren kehrte der Computer dann auch in die Wörterbuchverlage ein und veränderte das Handwerk grundlegend: • Der Zettelkasten ist nun nicht mehr die einzige Materialbasis lexikographischer Arbeit, ja oftmals nicht einmal die wichtigste, auch wenn er noch nicht aus den Redaktionsstuben vrschwunden ist. Statt dessen bezieht man sich heute selbstverständlich auf große digitalisierte Textsammlungen, aus denen die lexikographisch relevanten Informationen destilliert werden müssen. Dazu bedarf es ausgefeilter und effizienter, aber möglichst einfach zu bedienender Abfragetechniken; • zum gedruckten Buch als Medium ist nun das digitalisierte, elektronische Wörterbuch getreten. Es ist zu erwarten, dass das elektronische Wörterbuch das Printwerk auf Dauer ablösen wird, jedenfalls in den zentralen Benutzergruppen, die heute über einen Computer oder über ein mobiles Endgerät verfügen; der Platz für die Präsentation der lexikographischen Informationen ist in diesem Medium kein Problem mehr. Dafür stellen sich andere editorische Herausforderungen, vor allem hinsichtlich der Präsentation der Informationen und ihrer effektiven und benutzerfreundlichen Erschließung;

Einleitung

5

• schließlich ist der Computer selbst zum „Konsumenten“ lexikographischer Daten geworden, genauer: sprachtechnologische Software, die umfassende linguistische und lexikalische Informationen benötigt. Diese Informationen sind für viele sprachtechnologische Anwendungen essenziell, und es gibt einen wachsenden Markt für lexikalische Daten, die für diese neue „Zielgruppe“ geeignet sind. Die Herausforderung liegt darin, die lexikographischen Daten in einer so strikt formalen Weise zu präsentieren, dass sprachtechnologische Anwendungen sie nutzen können. Computer sind nach wie vor weniger tolerant gegenüber Fehlern und Auslassungen als Menschen. Die zweite große Herausforderung besteht darin, die Daten so zu modellieren, dass sie von vielen sprachtechnologischen Anwendungen genutzt werden können. Die soeben genannten Herausforderungen in der lexikographischen Praxis müssen von Spezialisten gelöst werden, die etwas von lexikographischen Prozessen, von Computern und insbesondere von Sprachtechnologie verstehen. Dieses Spezialgebiet wird C OMPUTERLEXIKOGRAPHIE genannt. Definition 1. Als Computerlexikographie bezeichnen wir Lexikographie mit dem Computer und für den Computer. Die lexikographische Arbeit gestaltet sich umfangreich und datenintensiv, so dass maschinelle Unterstützung dieses Prozesses unerlässlich ist. Lexikographen werden bei der Erhebung, Bearbeitung, Darstellung und Verarbeitung lexikographischer Daten unterstützt. Wörterbuchbenutzern wird der elektronische Zugriff auf die für sie relevanten Daten ermöglicht. Schließlich benötigen sprachverarbeitende Systeme lexikalische Ressourcen, welche verarbeitungsrelevante lexikalische Informationen über ein Inventar von Wörtern einer oder mehrerer Sprachen zur Verfügung stellen. Computerlexikographie umfasst daher nicht nur die konkrete Erstellung von Wörterbüchern, also das Verfassen von Lexikonartikeln oder Einträgen, sondern auch die theoretische Auseinandersetzung mit Lexikonmodellen und Wörterbuchstrukturen sowie die Abschätzung der Anforderungen, die an einen bestimmten Lexikontyp gestellt werden. Aufgrund der Dynamik und Wechselwirkung dieser Entwicklungen sind die Möglichkeiten der Computerlexikographie noch längst nicht ausgeschöpft. Dieses Buch gibt einen einführenden Überblick über das Feld und orientiert sich dabei am Stand der Forschung. Der folgende Abschnitt stellt die relevanten Themen kurz vor und verweist auf die Kapitel, in denen sie ausführlich besprochen werden: Die Darstellung des sprachbezogenen lexikalischen Wissens ist eingebettet in den Zusammenhang einer Theorie des lexikalischen Zeichens und der lexikalischen Semantik, für die in unserem Zusammenhang die Schlüsselbegriffe der Polysemie, Homonymie und Ambiguität relevant sind und erörtert

6

Einleitung

werden. Wir werden uns in Kapitel 3 auf die Aspekte der lexikalischen Semantik beschränken, die für die Computerlexikographie relevant sind. Unsere Darstellung wird sich aber nicht auf Einzelwörter beschränken. Es werden auch Fügungen von Wörtern, so genannte Mehrwortlexeme betrachtet, die besonders interessante Forschungsphänomene darstellen und spezifische Anforderungen an das Lexikonmodell sowie an Verarbeitungssysteme stellen. Eine grundlegende theoretische Unterscheidung mit weitreichenden praktischen Konsequenzen ist die zwischen lexikalischem Wissen und allgemeinem Weltwissen. Auf der Ebene des Lexikonmodells spiegelt sich diese Unterscheidung in der Trennung von Sprachwörterbuch und Sachwörterbuch oder Enzyklopädie wider. Auf der Ebene der Bedeutungsbeschreibung lexikalischer Einheiten ist die Beschränkung auf sprachliche Aspekte der Wortbedeutung wesentlich, um lexikographische Beschreibungen handhabbar zu halten. Wir stellen die aktuelle Diskussion um diese Unterscheidung in Kapitel 4 dar. Die Strukturierung lexikalischer Information im Wörterbucheintrag setzt voraus, dass auf der Basis einer Eintragsspezifikation, welche die Angabetypen und Klassifikationskriterien festlegt, eine geeignete Auswahl relevanter Worteigenschaften beschrieben wird. Diese Beschreibung unterliegt gewissen Anordnungs- und Aufbereitungskonventionen, welche zusammen die Artikelstruktur kennzeichnen. Eine standardisierte Artikelstruktur ist nicht nur für den menschlichen Benutzer hilfreich, sondern auch Voraussetzung für die Transformation der Angaben im Wörterbucheintrag in die Struktur einer lexikalischen Datenbank. Dies ist das Ziel des Wörterbuchparsings, das die Struktur standardisierter Wörterbuchartikel in Printwörterbüchern nutzt, um die dort vorhandenen Angaben in digitalisierte lexikalische Datenbanken zu übernehmen. Wir gehen in Kapitel 5 auf diese Aspekte ein und stellen eine Initiative vor, die das Ziel hat, Artikelstrukturen in elektronischen lexikalischen Ressourcen zu standardisieren. Ausgehend von Organisationsmodellen lexikalischer Daten, die eher auf der konzeptuellen Ebene anzusiedeln sind, gelangt man zu technisch-organisatorischen Modellen, die unmittelbar die physikalische Speicherung und Repräsentation der Daten betreffen. Eine herausragende Rolle spielen hier Datenbankmodelle für die statische und dynamische Verwaltung der Daten und XML als Markupsprache für semistrukturierte Daten, die in Textdateien oder Datenbanksystemen gespeichert werden können. Auch hierauf gehen wir in Kapitel 5 ein. Wortnetze und Ontologien sind Organisationsformen lexikalischer Ressourcen, die eine bedeutende Rolle für sprachtechnologische Anwendungen spielen. Diese lexikalischen Ressourcen ordnen den Wortschatz nach lexikalisch-semantischen Kriterien. Bedeutungsverwandte Wörter und Konzepte werden miteinander verknüpft. Ontologien sind dabei, wie wir sehen

Einleitung

7

werden, strenger formalisiert als Wortnetze. Beide Arten von Ressourcen eignen sich für jeweils andere sprachtechnologische Anwendungen. Kapitel 6 ist der Beschreibung dieser lexikalischen Ressourcen gewidmet. Lexikalische Regeln sind Mechanismen, die man ausschließlich bei solchen lexikalischen Ressourcen findet, die von sprachtechnologischen Systemen verwendet werden. Sie erlauben die kompakte Darstellung von Regularitäten auf allen Ebenen der lexikographischen Beschreibung. Mit lexikalischen Regeln kann man linguistische Generalisierungen kodieren. Sie machen so die wiederholte Darstellung derselben Zusammenhänge bei vielen einzelnen Einträgen überfüssig. Menschliche Benutzer werden die Darstellung dieser Zusammenhänge beim einzelnen Wörterbucheintrag bevorzugen. Deshalb finden wir diese Regeln nicht in traditionellen Wörterbüchern. Tatsächlich ist das Design dieser Regeln eine der Fähigkeiten, die Computerlexikographen gegenüber traditionellen Lexikographen auszeichnet. Wir behandeln lexikalische Regeln ausführlich in Kapitel 7. Mit der Verfügbarkeit sehr großer Textkorpora als Datenbasis für lexikalische und linguistische Arbeiten bekommt die lexikalische Statistik eine prominente Rolle. Quantitative Sprachmodelle können die (computer)lexikographische Arbeit in vielerlei Hinsicht unterstützen, wie wir in Kapitel 8 zeigen. Für Sprachen mit einer reicheren Morphologie spielt die Berücksichtigung von Flexion und Wortbildung, im einfachsten Fall bei der Ermittlung von Grundformen für Textwörter (die Lemmatisierung), eine wichtige Rolle. Für die Lemmatisierung und morphologische Wortanalyse gibt es heute ausgereifte sprachtechnologische Werkzeuge, die wir in Kapitel 9 vorstellen werden. Ebenfalls dort werden wir auf die Präsentation morphologischer Informationen in Printwörterbüchern eingehen. Formbezogene elektronische Ressourcen sollten mindestens dieses Niveau der Beschreibung erreichen. Die Akquisition lexikalischer Information aus Korpora ist dann wichtig, wenn ein Wörterbuch aufgebaut, erweitert, verbessert oder aktualisiert werden soll. Da schon viel lexikalisches Wissen in den unterschiedlichsten Quellen vorliegt, liegt der Gedanke nahe, bereits existierende Quellen auszubeuten, wie wir im Kapitel über das Wörterbuchparsing gezeigt haben. Daneben bieten sich große digitale Textsammlungen an. Diese sind heute für alle großen europäischen Sprachen verfügbar. Wichtig ist jeweils das zugrunde liegende Lexikonmodell, in das die neuen Informationen integriert werden sollen. Außerdem spielen Verarbeitungsprozesse, die zur Erkennung und Voranalyse der lexikalischen Einheiten führen, eine große Rolle, genau wie statistische Verfahren zur Ermittlung der Relevanz lexikalischer Information. In Kapitel 10 werden wir diese Aspekte diskutieren und abschließend ein allgemeines Vorgehen für Projekte der lexikalischen Akquisition vorstellen.

8

Einleitung

Den mehrgliedrigen lexikalischen Einheiten ist das letzte Kapitel gewidmet. Hier gehen wir vor allem auf Kollokationen und Phraseme ein. Beide Typen mehrgliedriger lexikalischer Einheiten standen in den letzten Jahren im Zentrum der computerlexikographischen Diskussion. Ausgangspunkt war die Erkenntnis, dass eine Herangehensweise an die automatische Sprachanalyse, die sprachliche Äußerungen als Kombinationen voneinander unabhängiger Einzelwörter auffasst, zu kurz greift. Mehrgliedrige Einheiten mit eingeschränkter Kombinierbarkeit und einer Bedeutung, die über die Summe ihrer Teile hinausgeht, durchziehen unsere sprachlichen Äußerungen. Es ist deshalb wichtig, sie bei der Textanalyse zu erkennen und angemessen lexikalisch zu beschreiben. In einem Abschnitt von Kapitel 10 stellen wir einige Werkzeuge vor, mit denen Sie selbst Korpora unter den verschiedensten Aspekten analysieren können. Dies soll Ihnen helfen, die in diesem Buch vorgestellten Techniken und Methoden auszuprobieren und selbständig lexikalische Studien zu betreiben. Das Buch wird durch eine Webseite – http://www.lemnitzer.de/ lothar/CoLex – begleitet, auf der wir a) weiteres Material zur Verfügung stellen; b) wir Sie über die Computerlexikographie-Tagungen, neue Literatur etc. auf dem Laufenden halten und c) auf die nie ganz zu vermeidenden Tippfehler hinweisen1 .

1

Ein großer Teil der Lehrmaterialien, aus denen dieses Buch entstand, wurde von uns im Rahmen des BMBF-geförderten Projekts Medienintensive Lehrmodule für die Computerlinguistik-Ausbildung (MiLCA) in den Jahren 2001-2004 entwickelt. Wir danken dem BMBF und seinem Projektträger für die materielle und ideelle Unterstützung des Vorhabens.

2 Das Lexikon

Nach der Lektüre dieses Kapitels werden Sie wissen, was im Kontext verschiedener Theorien unter einem Lexikon und unter einem lexikalischen Zeichen zu verstehen ist. Die meisten der hier angeschnittenen Themen werden in Kapitel 3 weiter vertieft.

1 Begriffsbestimmung In der modernen Linguistik werden mit G RAMMATIK und L EXIKON zwei elementare Teilsysteme der Sprache unterschieden. Das grammatische Modul legt das Kategorieninventar der linguistischen Betrachtungsebenen und die Regularitäten ihrer Verknüpfungen fest, während das Lexikon den Wortschatz einer Sprache beisteuert. Idiosynkratische, d.h. nicht vorhersagbare Eigenschaften von Wörtern finden ihren Platz im Lexikon. Diese Eigenschaften sind auf allen linguistischen Ebenen von der Phonetik und Phonologie bis hin zur Pragmatik zu spezifizieren. Der Begriff des Lexikons in der Sprachwissenschaft ist vielschichtig und ist ein gutes Beispiel für die Polysemie eines sprachlichen Zeichens, auf die wir in Kapitel 3, Abschnitt 5 zu sprechen kommen: • In der Psycholinguistik (vgl. Jackendoff (1990), Pinker (1996)) wird das Lexikon als mentales Konstrukt sowohl eines Sprechers als auch einer Sprachgemeinschaft aufgefasst. Es wird versucht, die Struktur des mentalen Lexikons kognitiv adäquat zu modellieren. • In der generativen Grammatik fungiert das Lexikon als Modul, in dem Wörter und ihre idiosynkratischen Eigenschaften aufgelistet werden. Diese Wörter werden in eine syntaktische Struktur eingesetzt, sie instantiieren die abstrakten Kategorien der präterminalen Knoten im Syntaxbaum, z.B. V → gehen. Diese Sichtweise entspricht dem in Chomsky (1965) dargestellten Modell der generativen Grammatik. • In der Form des gedruckten oder elektronischen Wörterbuchs liefert ein Lexikon dem menschlichen Benutzer Angaben zu den sprachlichen Eigenschaften der verzeichneten lexikalischen Einheiten; im zweisprachigen Wörterbuch findet man vor allem Übersetzungsäquivalente.

10

Das Lexikon

• Ein Printwörterbuch kann mit den gleichen Informationssequenzen digitalisiert und in maschinenlesbarer Form zur Verfügung gestellt werden. Maschinenlesbare Wörterbücher werden ebenfalls als Lexika bezeichnet. • Eine weitere Erscheinungsform des Lexikons ist die Lexikonkomponente in einem Sprachverarbeitungssystem. Die jeweilige sprachverarbeitende Anwendung verlangt von den lexikalischen Ressourcen spezifische lexikalische Information. Diese müssen in einer Form kodiert sein, die vom sprachverarbeitenden System eindeutig interpretiert und verarbeitet werden kann. Wir werden diese Lesarten im Folgenden voneinander abgrenzen, obgleich sie natürlich Beziehungen zueinander aufweisen. Von einem Lexikon als Teil oder Modul einer Sprachtheorie, also im Sinne der zweiten Definition, wird man klare Kriterien hinsichtlich des Umfangs der verzeichneten lexikalischen Zeichen sowie hinsichtlich der Angaben zu diesen Zeichen erwarten. Auf der anderen Seite stehen relativ kurzlebige Printwörterbücher wie die neusten Auflagen des Rechtschreibduden, bei denen von Auflage zu Auflage Wörter aufgenommen und wieder entfernt werden. Statt klarer Kriterien bei der Auswahl der linguistischen Beschreibungsebenen haben sich in der praktischen Lexikographie Konventionen ausgebildet darüber, welche Angabetypen in welchen Typen von Wörterbüchern zu finden sind. Dies wird oftmals schon im Namen des Wörterbuchs deutlich (Rechtschreibwörterbuch, Valenzwörterbuch etc.). Bei den lexikalischen Ressourcen für sprachverarbeitende Systeme haben sich für die meisten europäischen Staaten als Quasi-Standard formbasierte, vor allem die morphologischen Eigenschaften der sprachlichen Zeichen beschreibende und lexikalisch-semantische Ressourcen im Stile der Wortnetze etabliert. In allen Fällen ist das Lexikon ein offenes System und somit stärkeren Wandlungen unterworfen als das grammatische System einer Sprache. Lexikalische Neubildungen wie Topterrorist, Selbstmordattentat und Spendensumpf sind so geläufig, dass sie zumindest zeitweise in das Lexikon einer Sprachgemeinschaft Eingang finden könnten. Ein paar Jahre später sind sie möglicherweise wieder völlig außer Gebrauch. Es ist daher relativ zeitaufwändig, das Lexikon einer Sprache aktuell zu halten, sei es als lexikalische Ressource für sprachverarbeitende Systeme, sei es als Printwörterbuch. Heutzutage werden überwiegend Korpora zeitgenössischer Texte für die Auswahl des zu beschreibenden Wortschatzes und vor allem für die Registrierung neuer Wörter eingesetzt. Wir werden später auf diesen Aspekt der computergestützten Lexikographie eingehen. Auch wenn wir uns in diesem Buch vornehmlich mit einem anwendungsorientierten Lexikonbegriff befassen, kommen wir nicht umhin, verbindliche

Das Lexikon

11

Kriterien dafür festzulegen, was wir unter einem Lexikon im Folgenden verstehen wollen: • Einem Lexikon sollte ein explizites Lexikonmodell zugrunde liegen, an dem sich zum Beispiel die Erstellung dieses Lexikons ausrichtet. Dieses Modell kann durchaus in Abhängigkeit von einem bestimmten Anwendungszweck entwickelt werden. • Das Lexikonmodell sollte die elementaren Einheiten im Lexikon festlegen. Die prototypische lexikalische Einheit ist das Wort. Das Lexikon kann aber auch sprachliche Einheiten unterhalb der Wortebene (Morpheme) oder oberhalb der Wortebene (Mehrwortlexeme) zum Gegenstand haben. Wir werden auf beide in separaten Kapiteln eingehen. • Das Lexikonmodell sollte zu Unterscheidungskriterien für lexikalische Einheiten führen. Diese sind in erster Linie semantischer Natur, können aber auch formbasiert sein. Wir haben diesem wichtigen Gegenstand ein eigenes Kapitel gewidmet. Im Folgenden werden wir einige Typen digitaler lexikalischer Ressourcen beschreiben, die auch unter dem Sammelbegriff lexikalische Datenbanken zusammengefasst werden.

2 Lexikalische Datenbanken Wir wollen zunächst festlegen, was wir unter dem Begriff LEXIKALISCHE DATENBANK verstehen. Lexikalische Datenbanken sind digitale lexikalische Ressourcen, die in einer Form abgespeichert sind, dass die einzelnen Datensätze konsistent im Hinblick auf eine formale Beschreibung ihrer Struktur sind. Ein einzelner Datensatz kann dabei einem Wörterbuchartikel entsprechen oder einem Artikelteil. Er kann aber auch artikelübergreifende Strukturen umfassen. Die formale Beschreibung der Datenstruktur kann in Form eines konzeptuellen Schemas vorliegen, wenn die Daten z.B. in einem relationalen Datenbanksystem abgespeichert sind. Sie kann in Form einer Dokumentgrammatik vorliegen, wenn die Daten als annotierte Dokumente verwaltet werden1 . Generell gilt, dass relationale Datenbanksysteme und die für die Modellierung der Daten verwendeten konzeptuellen Schemata eine rigidere Strukturierung der Daten erzwingen als Dokumentgrammatiken für XML-annotierte Daten. Man spricht deshalb von relationalen Datenbanken als Verwaltungssystemen für strukturierte Daten und von XML-basierten Datenbanken als Verwaltungssystemen für semi-strukturierte Daten. Die Entscheidung für eine der beiden Alternativen hängt letztlich von der Qualität der zu modellierenden Daten ab. Deshalb kann das Für und Wider beider Alternativen nicht unabhängig von konkreten Projekten diskutiert werden. Ein LEXIKALISCHES I NFORMATIONSSYSTEM ist umfassender als eine LEXIKALISCHE DATENBANK . Es enthält eine lexikalische Datenbank für die Speicherung und Verwaltung der Daten, darüber hinaus aber auch Benutzerschnittstellen für den Zugriff auf diese Daten. Wir werden in Kapitel 5, Abschnitt 1.5 detaillierter auf zwei lexikalische Informationssysteme eingehen.

2.1 Typen lexikalischer Datenbanken Unter maschinenlesbaren Wörterbüchern (‚machine readable dictionaries‘, MRDs) verstehen wir die elektronischen Versionen allgemeinsprachlicher Printwörterbücher, die meist in Form von Satzbändern vorliegen, oder auch maschinell hergestellte und genutzte Wörterbücher. Da sie für den menschlichen Benutzer bestimmt sind, sollten möglichst alle Informationen in natürlicher Sprache vorliegen. Insbesondere in Großbritannien sind maschinenlesbare Wörterbücher in der akademischen Forschung intensiv genutzt worden, seit der Longman Verlag, und später auch andere britische Verlage, ihre Daten zur Verfügung stellten2 . Berühmt ist die maschinenlesbare Version der er1 2

Vgl. hierzu Kapitel 5, Abschnitt 3 in diesem Buch. Wir stellen in Kapitel 5, Abschnitt 2.4 ein Projekt vor, in dem Daten aus einem maschinenlesbaren Wörterbuch extrahiert und weiterverwendet wurden.

Das Lexikon

13

sten Auflage des Longman Dictionary of Contemporary English von 19783 . Die Rohdaten maschinenlesbarer Wörterbücher enthalten die für weitgehend manuell erstellte Printwörterbücher charakteristischen Inkonsistenzen. Dies muss bei der Analyse und beim Parsen dieser Daten beachtet werden4 . Unter maschinenverarbeitbaren Wörterbüchern (‚machine tractable dictionary‘, MTD) verstehen wir lexikalische Ressourcen, die lexikalisches Wissen in einer Art und Weise kodieren, dass Computersysteme, insbesondere sprachtechnologische Anwendungen, darauf zugreifen können. Die darin enthaltenen Angaben müssen in einem zu spezifizierenden, expliziten Format vorliegen. Maschinenverarbeitbare Wörterbücher können in den unterschiedlichsten sprachtechnologischen Anwendungen eingesetzt werden und dementsprechend auch unterschiedliche Schwerpunkte setzen. Sie können etwa Angaben zur Morphologie oder zur Syntax oder Semantik enthalten oder kombinierte Ressourcen darstellen. Es werden jeweils formal explizite kanonische Angaben bereitgestellt, auf die der Computer zugreifen kann. Ein Beispiel für ein maschinenverarbeitbares Wörterbuch ist das deutsche Wortnetz GermaNet, auf das wir in Kapitel 6 näher eingehen werden. Im Wortnetz sind überwiegend semantische Informationen kodiert. Ein weiteres Beispiel ist das an der Fernuniversität Hagen entwickelte HagenLex5 . Das Stuttgarter Lexikon IMSLex hingegen enthält überwiegend formbasierte Informationen. Das Informationsprogramm umfasst Flexionsmorphologie, Derivations- und Kompositionsmorphologie und Valenzangaben6 . MTDs können auf eine spezifische Theorie zugeschnitten sein, etwa auf den HPSG-Formalismus (Head Driven Phrase Structure Grammar) oder die Diskursrepräsentationstheorie (DRT). Ein für die Entwicklung maschinenverarbeitbarer Wörterbücher relevanter Aspekt war und ist die Frage, inwieweit man die lexikalischen Daten theorieneutral modellieren und sie damit für viele sprachtechnologische Anwendungen nutzbar machen kann. GermaNet und IMSLex sind Beispiele für weitgehend theorieneutrale lexikalische Ressourcen. Wichtig sind in diesem Zusammenhang auch lexikalische Datenbanken, die Fachterminologie enthalten. Oftmals haben große Firmen ihre eigenen Terminologien aufgebaut; und europäische Bemühungen zielten auf die Vereinbarung von Standards, um die Terminologiedaten austauschen bzw. wiederverwerten zu können, z.B. Interactive Terminology for Europe (IATE)7 .

3 4 5

6

7

Vgl. Procter (1978). Auf das Wörterbuchparsing gehen wir detaillierter in Kapitel 5, Abschnitt 2 ein. Vgl. Hartrumpf et al. (2003): http://pi7.fernuni-hagen.de/forschung/ hagenlex/hagenlex-de.html. Detailliertere Informationen finden sich unter http://www.ims.uni-stuttgart. de/projekte/IMSLex/. Vgl. http://iate.europa.eu/iatediff/.

14

Das Lexikon

Lexikalische Wissensbanken schließlich sind maschinenverarbeitbare lexikalische Ressourcen, die auch außersprachliches Wissen einbeziehen. Eine klare Unterscheidbarkeit von lexikalischen Datenbanken und lexikalischen Wissensbanken ist nicht immer gegeben. Die Unterscheidung der beiden Ressourcentypen stammt aus der Zeit zu Beginn der Neunziger Jahre, als der Diskurs über Sprach- und Weltwissen einen (vorläufigen) Höhepunkt erfuhr. Eine heute sehr einflussreiche enzyklopädische Ressource, und damit Wissensbank, ist die Wikipedia. Die deutsche Ausgabe dieser Enzyklopädie befindet sich unter http://de.wikipedia.org. Die Wikipedia ist der Prototyp einer dynamischen lexikalischen Ressource, mit Hunderten, wenn nicht Tausenden Änderungen täglich. Die Sprachtechnologie beginnt gerade erst, sich den Reichtum dieser Ressource nutzbar zu machen8 . Das Gegensatzpaar STATISCH und DYNAMISCH zielt auf die Konzeption der Datenbanken schlechthin: eine statische Datenbank ist hinsichtlich der Informationsstruktur, die sie repräsentiert, festgelegt, während eine dynamische Datenbank neue Informationstypen integrieren kann. So weist zum Beispiel der von Petra Ludewig beschriebene Prototyp einer L EXICAL K NOWLED GE BASE Import- und Exportfunktionen auf, welche die Zusammenführung und Wiederverwendung lexikalischer Information aus externen Ressourcen ermöglicht9 . Solche dynamischen Systeme benötigen Programme, wie die sog. L EXICON B UILDERS, die automatisch Wörterbücher erstellen können, indem sie Informationen aus bestehenden Wörterbüchern, aus Dokumenten und Korpora akquirieren und zusammenführen. Hyperlexika sind als Hypertexte realisierte Lexika und Lexikonsysteme, vor allem im World Wide Web (WWW), bei denen ebenfalls zwischen statischen und dynamischen Varianten unterschieden wird: statische Hyperlexika sind vorkompilierte WWW-Versionen eines gedruckten Wörterbuchs als abfragbare Datenbanken. Dynamische Hyperlexika sind nicht vorkompiliert und bieten keine Indexauflösung, sondern eine Suche an, und können daher mit sehr großer Kombinatorik abgefragt werden, ähnlich wie WWWSuchmaschinen. Insgesamt gesehen werden dynamische benutzerdefinierte lexikalische Informationssysteme immer wichtiger. Im Kontext der technischen Möglichkeiten einer verbesserten Datengewinnung durch automatische Verfahren der Informationsextraktion aus Dokumenten und Korpora könnte der klassische Lexikonbegriff, der von einem relativ fixen Repertoire lexikalischer Einheiten ausgeht, eine Umbewertung erfahren. Ad-hoc gebildete Lexika für die unterschiedlichsten Zwecke und Anwendungen könnten einerseits in Bezug auf Qualität, Abdeckung und Einsetzbarkeit zu Evaluationsproblemen führen 8

9

Vgl. Zesch et al. (2007). Die Autoren haben eine Schnittstelle für die Programmierung (API) entwickelt, mit deren Hilfe man auf die Daten der Wikipedia-Datenbank zugreifen kann. Vgl. Ludewig (1993).

Das Lexikon

15

und für die lange angestrebte Standardisierung kontraproduktiv sein, andererseits für größere Flexibilität und empirisch gesichertes Datenmaterial sorgen.

3 Weiterführende Literatur Eine lesenswerte Referenz zum Lexikon in der psycholinguistischen Erforschung vor allem des Spracherwerbs ist die Arbeit von Eve Clark (1993). Zum Lexikon in der theoretischen Sprachwissenschaft vor allem der generativen Prägung geben die Arbeiten des Sonderforschungsbereichs „Theorie des Lexikons“ Auskunft10 . Im Zentrum des Interesses stehen hier aber sicher maschinenlesbare Wörterbücher und Lexika für sprachtechnologische Anwendungen. Für Erstere ist immer noch die Arbeit von Boguraev und Briscoe (1989) die erste Referenz. Kritisch zum Nutzen von maschinenlesbaren Wörterbüchern für die Sprachtechnologie äußern sich Nancy Ide und Jean Véronis (1993). Einen relativ neuen Ansatz präsentiert Daelemans (2000) unter dem Namen „Inductive Lexicon“. Die Standardreferenz zum von Pustejovsky propagierten „Generative Lexicon“ ist sein Aufsatz von 1991, auch wenn es viele neuere, auch in diesem Buch erwähnte Arbeiten aus diesem theoretischen Umfeld gibt. Am Schluss wollen wir mit der Arbeit von Christopher Habel (1985) einen etwas in die Jahre gekommenen, aber zumindest aus historischer Sicht interessanten Artikel zum Platz des Lexikons in der Forschung zur künstlichen Intelligenz empfehlen.

4 Aufgabe 1. Welche Wörterbücher, Lexika und Enzyklopädien kennen Sie bzw. haben Sie schon mal benutzt? Berichten Sie von Ihren Erfahrungen. Was könnte man Ihrer Meinung nach an Wörterbüchern verbessern?

10

Vgl. http://www.phil-fak.uni-duesseldorf.de/sfb282/.

3 Lexikalische Semantik

In diesem Kapitel werden Sie die lexikalisch-semantischen Zusammenhänge kennenlernen, die für die Computerlexikographie von zentraler Bedeutung sind. Sie erfahren insbesondere mehr zur komponentiellen Semantik und zur relationalen Semantik. Wir gehen ausführlich auf das zentrale Konzept der Polysemie ein. Zum Abschluss des Kapitels führen wir die beiden Konzepte der Unterspezifizierung und der Ambiguität ein.

1 Lexikalisches Zeichen und lexikalisches System Die lexikalische Semantik befasst sich mit den lexikalischen Zeichen sowie dem lexikalischen System oder Lexikon einer Sprache. Lexikalische Zeichen sollten nicht mit Wörtern verwechselt werden. Jede sprachliche Einheit, der eine Bedeutung zugeordnet werden kann, ist ein lexikalisches Zeichen und damit Teil des lexikalischen Systems einer Sprache. Neben einfachen Wörtern sind dies Wortteile, M ORPHEME genannt, und wortübergreifende Ausdrücke, vor allem Phraseme, aber auch Kollokationen. Wir unterscheiden also: • -bar – ein Morphem, das als Suffix an verbalen Stämmen Adjektive bildet, z.B. lernbar, • Sack – ein Wort bzw. einfaches lexikalisches Zeichen, • die Katze im Sack kaufen – ein Phrasem, dessen Bedeutung nichts mit Katzen und Säcken zu tun hat, sondern mit Dingen, die man unbesehen erwirbt, • den Tisch decken – eine Kollokation. Wir werden in Kapitel 9 näher auf Morpheme und Wortstrukturen eingehen. Den mehrwortigen Lexemen ist ebenfalls ein eigenes Kapitel gewidmet (Kapitel 11). Im Folgenden werden wir vor allem auf Wörter und Wortbedeutungen eingehen, möchten aber nochmals betonen, dass der Begriff des lexikalischen Zeichens mehr umfasst als nur Wörter. Wir werden zunächst auf die Betrachtung des lexikalischen Zeichens in der strukturalistischen Semantik eingehen. Von Saussure ausgehend werden

Lexikalische Semantik

17

wir einige semiotische Modelle des sprachlichen Zeichens vorstellen. Diese Modelle behandeln die dichotomische und späterhin trichotomische Struktur von lexikalischer Form, lexikalischer Bedeutung und Referenten von Wörtern. Viele, nicht nur strukturalistische, Semantiker gehen davon aus, dass die Bedeutungsseite des sprachlichen Zeichens in B EDEUTUNGSATOME dekomponierbar ist. Im weiteren Sinn wird die Bedeutung des gesamten Vokabulars einer Sprache als Kombination einer endlichen und zumeist sehr kleinen Menge von Bedeutungsatomen (oder P RIMITIVEN) betrachtet. Diese Annahme geht auf eine Analogie zur Lautform von Wörtern zurück. Die Phoneme einer Sprache können als Kombinationen einer endlichen und sehr kleinen Menge von Lauteigenschaften beschrieben werden. Atomistische Ansätze der Wortsemantik sind sowohl in der allgemeinen Linguistik als auch in der Computerlinguistik sehr beliebt. Wir werden in drei Abschnitten dieses Kapitels einflussreiche klassische und neuere Ansätze der kompositionellen Semantik vorstellen: Katz und Fodors Markertheorie, Wierzbickas semantische Primitive und Pustejovskys Theorie des generativen Lexikons. Neben dem einzelnen lexikalischen Zeichen ist das lexikalische System oder Subsystem einer Sprache der Untersuchungsgegenstand der lexikalischen Semantik. Ein beliebter Gegenstand war und ist das lexikalische Feld. Ein lexikalisches Feld besteht aus einer Menge lexikalischer Zeichen, deren Bedeutungen über lexikalisch-semantische Relationen verbunden sind. Einige bekannte lexikalische Relationen sind die S YNONYMIE, A NTONYMIE, H YPERONYMIE und H YPONYMIE. Einige Forscher, vor allem aus dem Bereich der kognitiven Linguistik und künstlichen Intelligenz, postulieren die Existenz konzeptueller Strukturen, von mentalen Strukturen also, die in bestimmter Weise zu den Strukturen im lexikalischen System einer Sprache korrespondieren1 . Reuland und Ankersmit haben die Beziehungen zwischen konzeptuellen Strukturen und Strukturen von lexikalischen Einträgen genauer untersucht2 . Lexikalisch-semantische Relationen sind ein wichtiges Strukturierungsmittel in der Computerlexikographie. In den alphabetisch angeordneten Wörterverzeichnissen von Printwörterbüchern werden diese Relationen durch Verweise realisiert. In Spezialwörterbüchern wie zum Beispiel den Wortnetzen, auf die wir später genauer eingehen werden, sind lexikalische Einheiten entsprechend der sie verbindenden lexikalisch-semantischen Relationen gruppiert. In diesem Kapitel werden wir uns noch ausführlicher mit einem Bereich der lexikalischen Semantik beschäftigen, der sich RELATIONALE S E MANTIK nennt.

1 2

Vgl. Sowa (1983). Vgl. Reuland und Ankersmit (1993).

18

Lexikalische Semantik

Polysemie von lexikalischen Einheiten ist ein Phänomen, das sich bisher dem vollen Verständnis aller wortsemantischen Theorien entzieht. Mit Polysemie bezeichnet man die Tatsache, dass ein lexikalisches Zeichen in mehr als einer Bedeutung verwendet werden kann (z.B. Satz → ‚Einheit der Sprache‘, ‚großer Sprung‘, ‚Spielabschnitt beim Tennis‘ etc.). Die verschiedenen Bedeutungen eines Wortes sind einigen Theorien zufolge miteinander verbunden. Eine Richtung der aktuellen Forschung befasst sich damit, ob Beziehungen zwischen den Bedeutungen von Wörtern sich generalisieren und damit als Regularitäten darstellen lassen (z.B. haben viele Wörter verwandte Bedeutungen, die eine Institution und das Gebäude, das diese Institution beherbergt, bezeichnen, z.B. Schule, Finanzamt). Man spricht dann von RE GULÄRER P OLYSEMIE . In der lexikographischen Praxis stellt sich ständig die Frage, wie viele Bedeutungen oder Lesarten für ein Wort bzw. einen Wörterbucheintrag angesetzt werden sollen – im Duden Universalwörterbuch werden 12 Lesarten für das Wort Satz unterschieden, in anderen Wörterbüchern sind es weniger oder mehr, die Spannbreite ist gerade bei stark polysemen Wörtern bemerkenswert. Eng mit der Polysemie verbunden ist die Ambiguität von Textwörtern. Eine noch nicht gemeisterte Herausforderung für sprachtechnologische Programme besteht darin, die genaue Bedeutung eines Worts im Kontext eines Textes zu bestimmen. Das Forschungsprogramm, das zur Lösung dieser Frage bzw. zu einem funktionierenden System beitragen möchte, nennt sich W ORD S ENSE D ISAMBIGUATION, was sich in etwa mit ‚Lesartenbestimmung von Textwörtern‘ übersetzen lässt. Einen Überblick über den Stand der Forschung geben Jean Véronis und Nancy Ide3 . Ein von Eneko Agirre herausgegebener Sammelband präsentiert die neuesten Forschungsansätze4 .

3 4

Vgl. Ide und Véronis (1998). Vgl. Agirre und Edmonds (2006).

2 Die Struktur des lexikalischen Zeichens 2.1 Die Saussureschen Dichotomien Um einen Eindruck davon zu bekommen, wie die Form- und Inhaltsseite lexikalischer Zeichen aufeinander bezogen werden können, werden wir uns zunächst die strukturalistische Theorie des lexikalischen Zeichens ansehen. Diese Theorie nahm ihren Ursprung bei Ferdinand de Saussure, der als Wegbereiter der modernen Linguistik gilt. Seine wegweisende Vorlesung ‚Cours de linguistique générale‘ (Deutsch: Grundfragen der allgemeinen Sprachwissenschaft, de Saussure (2001)) wurde 1916 auf der Basis der Mitschriften von Zuhörern veröffentlicht. Zwei Wortpaare sind grundlegend für Saussures Konzept der Wortbedeutung: • •

vs. PAROLE (auf Deutsch: Sprachsystem vs. Sprachgebrauch) RELATIONS PARADIGMATIQUES vs. RELATIONS SYNTAGMATIQUES (paradigmatische vs. syntagmatische Beziehungen)5 LANGUE

Mit der ersten Unterscheidung etabliert Saussure Sprache als System, das von den Verwendungsinstanzen der Sprache, dem Sprachgebrauch, zu unterscheiden ist und einen eigenen Untersuchungsgegenstand der Linguistik darstellt. Entsprechend ist das Lexikon eine Abstraktion aus den zahlreichen Verwendungen lexikalischer Einheiten in Wort und Schrift. Sprache in diesem Sinne ist ein statisches System mit einem sozialen Wert, der durch Konvention festgelegt wird. Das Objekt der linguistischen Forschung ist dieses soziale Produkt, das sich im Gehirn jedes einzelnen Sprechers manifestiert. Dieses Produkt liegt allen konkreten Äußerungen (also dem Sprachgebrauch) zugrunde. Der konkrete Sprachgebrauch wiederum ist geprägt von Varianz in Tonfall, Tonhöhe, dialektaler Einfärbung etc., von welcher auf der Ebene des Sprachsystems abstrahiert wird. Eine ähnliche Unterscheidung wird im Rahmen der generativen Grammatik durch das Begriffspaar COMPETENCE und PERFORMANCE getroffen. Während die Performanz den aktuellen Sprachgebrauch einer bestimmten Person zu einer bestimmten Zeit bezeichnet, mit allen Idiosynkrasien, individuellen Eigenheiten, Fehlern etc., referiert Chomsky6 mit dem Begriff der Kompetenz auf das Sprachvermögen als eine kognitive Fähigkeit aller Sprecher. Beide Theoretiker würden sicher der Aussage zustimmen, dass das Abstraktum, LANGUE oder KOMPETENZ genannt, der eigentliche Gegenstand der Linguistik ist. Die generative Grammatik geht hier noch einen Schritt weiter mit der Behauptung, dass Sprachkompetenz ohne Rückgriff auf die Performanz, also einzelne Äußerungen, untersucht werden kann. Viele Lin5 6

Wir gehen in Abschnitt 4 dieses Kapitels näher auf dieses Gegensatzpaar ein. Vgl. Chomsky (1969).

20

Lexikalische Semantik

guisten folgen dem nicht (mehr). Die Unterscheidung dieser beiden Aspekte von Sprache hat Auswirkungen auf den Begriff der (lexikalischen) Bedeutung. Zum einen spiegelt sich die Unterscheidung wider in dem Begriffspaar der DENOTATIVEN B EDEUTUNG, einem Abstraktum, das sich im Wörterbuch findet, und der REFERENTIELLEN B EDEUTUNG, die eine Eigenschaft der konkreten Äußerung ist. Betrachten wir ein Beispiel: The Hitchhiker’s Guide to the Galaxy notes that Disaster Area, a plutonium rock band from the Gagrakacka Mind Zones, are generally held to be not only the loudest rock band in the Galaxy, but in fact the loudest noise of any kind at all. (Adams (1980), S. 114) In diesem Beispiel beziehen sich die Wörter bzw. Wortsequenzen Disaster Area, rock band und noise auf den gleichen Sachverhalt bzw. das gleiche außersprachliche Objekt, obwohl sie verschiedene denotative Bedeutungen haben. In Fällen wie diesen spricht man in der Linguistik übrigens von KO REFERENZ . Eine weitere wichtige begriffliche Dichotomie, die auf de Saussure zurückgeht, ist die zwischen SUBSTANCE und VALEUR (Substanz vs. Wert). Der Begriff der Substanz bezeichnet die ungeformte Masse der Laute und der Bedeutungen bzw. Begriffe. Das sprachliche Zeichen ist es, das diese Substanz formt und unterteilt. Die Substanz von Laut und Bedeutung existiert unabhängig von einzelnen Sprachen, sie ist universal, wohingegen jede einzelne Sprache diese Substanz anders formt und gliedert. Ein gutes und oft zitiertes Beispiel hierfür ist die Unterteilung des Farbspektrums (der Substanz) in verschiedene lexikalische Felder in verschiedenen Sprachen. Sprecher haben die prinzipielle Fähigkeit, zwischen Farbnuancen zu unterscheiden, haben aber nicht immer Begriffe für diese Unterscheidungen. Die Form, die der Substanz gegeben wird, bezeichnet de Saussure als Valeur. Der Wert eines sprachlichen Zeichens kann wie folgt formalisiert werden: Sei Z eine endliche Menge von Zeichen z1 . . . zn . Der Wert eines bestimmten Zeichens zi ist nun Z − (z1 . . . zi − 1 . . . zi + 1 . . . zn ). Da N ein endlicher Wert ist, lässt sich diese Formel nur auf endliche Mengen von phonologischen oder semantischen Einheiten anwenden. Diese Auffassung des Wertes eines sprachlichen Zeichens hat sich als besonders fruchtbar erwiesen für die Theorie lexikalischer Felder7 , die auf endlichen Mengen von lexikalischen Einheiten errichtet werden. Für das offene Vokabular lebender Sprachen ist diese Formalisierung aber weniger gut geeignet.

7

Ein Paradebeispiel ist das lexikalische Feld der Farbbezeichnungen. Das objektiv vorhandene Farbspektrum wird in verschiedenen Sprachen durch unterschiedlich große Mengen von Ausdrücken abgedeckt und unterteilt, so dass ein Ausdruck innerhalb des Vokabulars einer Sprache ein bestimmtes Spektrum bezeichnet: grün ist das, was nicht blau, gelb etc. ist.

Lexikalische Semantik

21

Wenn zum Beispiel eine Sprache nur ein Adjektiv zur Verfügung hat, um auszudrücken, dass etwas groß ist (Zde = groß), dann ist die Valeur dieses Zeichens höher als in einer Sprache, die für diesen Begriff drei Ausdrücke zur Verfügung hat (Zen = big, large, huge). Ein anderes Beispiel ist die Benennung von Wörterbüchern: Der Ausdruck Handwörterbuch, der für sich genommen schwer zu interpretieren ist (ein Wörterbuch, das in eine Hand passt? ein Wörterbuch, das immer zur Hand ist?), erhält eine klare Bedeutung als Teil eines Feldes von Wörterbuchbezeichnern wie Miniwörterbuch, Taschenwörterbuch, Handwörterbuch, Großwörterbuch, in dem jeder dieser Bezeichner auf einen Wörterbuchtyp einer gewissen Größe referiert. Auf die lexikalische Semantik bezogen, nimmt de Saussure an, dass das individuelle lexikalische Zeichen zwei Seiten hat: die Formseite (SIGNIFI ANT) und die Inhaltsseite ( SIGNIFIÉ ). Beide Seiten zusammen bilden das lexikalische Zeichen. Beide Seiten sind dazu geeignet, als Ordnungsaspekt für Wörterbücher zu fungieren. Saussure verwendet hierfür die Metapher eines Stücks Papier, bei dem die Formseite die Vorderseite und die Inhaltsseite die Rückseite bildet. Wenn die Vorderseite verschwindet, dann verschwindet automatisch auch die Rückseite, und umgekehrt (vgl. de Saussure (2001), S. 101). Die Beziehung von Form und Inhalt ist allerdings arbiträr, und es wird durch Konvention zwischen den Sprachbenutzern festgelegt, welcher Begriff z.B. mit der Formseite ‚TISCH‘ verbunden wird (vgl. de Saussure (2001), S. 66ff.). In anderen Sprachen ist dieser Begriff mit einer anderen lexikalischen Form verbunden. Das Wirken der Konvention bei der Ausprägung des Vokabulars einer Sprache kann man anhand der Etablierung neuer Wörter erkennen. So gab es für die Sportschuhe mit Rollen zeitweise zwei Wörter: Rollerblades und Inlineskates. Die Sprachgemeinschaft hat sich letztendlich für das zweite Wort als die konventionelle lexikalische Form entschieden. Zusammenfassend kann man sagen, dass Saussures semantische Theorie ATOMISTISCH oder ANALYTISCH ist. Saussure geht davon aus, dass die Inhaltsseite eines lexikalischen Zeichens weiter zerlegt werden kann in individuelle Konzepte. Zugleich ist seine Theorie, wie der Begriff der Valeur zeigt, HOLISTISCH . Sprache ist ein System oder eine Struktur, in der alle Elemente miteinander verbunden sind. Seine Theorie ist UNIVERSAL insofern, als er eine einzelsprachenübergreifende Substanz von Form und Bedeutung annimmt, die in jeder Sprache anders strukturiert wird. Sie ist MENTAL insofern, als Saussure sich auf Lautformen und Bedeutungen als mentale Zustände bzw. Gedanken bezieht. Seine Annahme einer engen Beziehung zwischen lexikalischer Form und lexikalischer Bedeutung, die in der Papiermetapher zum Ausdruck kommt, setzt seiner Theorie allerdings Grenzen. Im Rahmen dieses Konzepts des le-

22

Lexikalische Semantik

xikalischen Zeichens ist es nicht möglich, Phänomene wie Polysemie und Synonymie angemessen darzustellen. Deshalb ist Saussures Theorie unzureichend als Basis für die (Computer)-Lexikographie. Sie wurde in der Folge denn auch modifiziert. Wir werden uns diese Modifikationen in den folgenden Abschnitten ansehen.

2.2 Modifikationen im Rahmen des Strukturalismus Die strukturalistische Linguistik in der Folge von de Saussure modellierte weitere Aspekte der Form, der Bedeutung und der Funktion lexikalischer Zeichen. Ogden und Richards (vgl. 1949) entwickelten ein Modell des sprachlichen Zeichens, das sie als Dreieck darstellten. An den Ecken des Dreiecks findet man S YMBOL, also die Formseite des Zeichens, THOUGHT bzw. RE FERENCE als die Inhaltsseite des Zeichens und, am rechten unteren Ende, den REFERENT als außersprachlichen Bezugspunkt. Ein Symbol „symbolisiert“ ein Gedankenobjekt und steht für ein Referenzobjekt. Das Referenzobjekt ist das außersprachliche Korrelat des sprachlichen Zeichens. Der Akt der Referierens wird als ein kognitiver Prozess betrachtet – durch Gebrauch des sprachlichen Zeichens wird auf etwas Außersprachliches referiert. Während

Abbildung 1: Modell des sprachlichen Zeichens nach Ogden und Richards also de Saussure auf Substanz und Form sprachlicher Zeichen im Verhältnis zu mentalen Zuständen der Sprecher abzielt, erweitern seine Nachfolger das Bild um den außersprachlichen Referenten und die Funktion sprachlicher Zeichen, auf Außersprachliches zu referieren. Stephen Ullmann (1962) stellt sein Modell des lexikalischen Zeichens ebenfalls als Dreieck dar und projiziert die Formseite des Zeichens (hier NAME genannt) und die Inhaltsseite ( SENSE ) ebenfalls auf die linke Seite. Auf der rechten Seite finden wir wieder den außersprachlichen Bezugspunkt

Lexikalische Semantik

23

(THING). Mit SENSE wird entweder der mentale oder der informationelle Inhalt des Zeichens bezeichnet. Ullmanns Auffassung zufolge ist die Untersuchung der Beziehung zwischen dem Zeicheninhalt und seinem außersprachlichen Bezugsobjekt kein Gegenstand der linguistischen Forschung (vgl. Ullmann (1962)).

Abbildung 2: Modell des sprachlichen Zeichens nach Ullmann Heger erweitert das Modell des lexikalischen Zeichens um eine weitere Ebene und entwickelt das Dreieck so zu einem Trapez weiter. Nach wie vor befindet sich die Beziehung zwischen Form- und Inhaltsseite des Zeichens auf der linken Seite und die Beziehung zum außersprachlichen Referenten auf der rechten Seite. Der entscheidende Unterschied ist nun, dass durch das Auffalten der Spitze des Dreiecks die Inhaltsseite des sprachlichen Zeichens als etwas Strukturiertes dargestellt werden kann, nämlich als eine Kombination von Bedeutungselementen, die Heger S EME nennt8 . Eine Zeichenform kann auf diese Weise mit einem Konglomerat von Bedeutungen verbunden werden. Dies ist das Merkmal der Polysemie (Satz → /großer Sprung/, /sprachliche Einheit/ etc.). Mehrere elementare Bedeutungseinheiten formen ein S EMEM, eine komplexe Bedeutungseinheit. Da dieses Modell es also erlaubt, komplexe Bedeutungseinheiten aus einfacheren Elementen zu konstruieren, können damit lexikalisch-semantische Beziehungen definiert werden, für die die älteren Modelle nicht ausgestattet waren. Dazu gehören: • Synonymie: Zwei sprachliche Einheiten verfügen über Inhaltsseiten, die ein Semem gemeinsam haben (Computer und Rechner haben die Bedeutung ‚elektronische Rechenanlage‘ gemeinsam. Rechner hat darüber ein weiteres Semem, das auf rechnende Menschen referiert). Die Klassen der außersprachlichen Objekte, auf die die beiden sprachlichen Zeichen in

8

Also ist Semantik die Lehre von den Semen.

24

Lexikalische Semantik

Abbildung 3: Modell des sprachlichen Zeichens nach Heger dieser durch das gemeinsame Semem repräsentierten Bedeutung referieren, sind extensionsgleich9 . • Antonymie: Die Sememe zweier sprachlicher Zeichen sind so beschaffen, dass alle bis auf ein Sem gleich sind. Junge und Mädchen teilen die Seme /belebt/, /menschlich/, /jung/, unterscheiden sich aber in dem Sem, das auf das Geschlecht referiert (/männlich/ vs. /weiblich/). Die Klassen der außersprachlichen Objekte, auf der die beiden sprachlichen Zeichen hinsichtlich des gemeinsamen Semems referieren, sind disjunkt. • Hyponymie: Die Sememe zweier lexikalischer Zeichen, die in der Relation der Hyponymie zueinander stehen, teilen sich einen gewissen Bestand an Semen. Die Bedeutungsseite des Hyponyms, also des spezielleren Begriffs, hat darüber hinaus weitere Seme. So teilen sich die lexikalischen Zeichen Pflanze und Rose einige Seme, z.B. /Ding/, /belebt/, Rose hat aber weitere Seme, die die „Rosenhaftigkeit“ ausmachen, z.B. /hat Dornen/. Die Menge der Referenten des Unterbegriffs ist eine Untermenge der Referenten des Oberbegriffs. Mit anderen Worten: jede Rose ist eine Pflanze, aber nicht jede Pflanze ist eine Rose. • Kohyponymie: Die Sememe zweier Kohyponyme haben eine gewisse Menge von Semen gemeinsam, nämlich diejenigen, die sie mit dem gemeinsamen Hyperonym (Oberbegriff) teilen. Darüber hinaus unterscheiden sie sich in mindestens einem Sem (Schimmel und Rappen teilen sich die Seme, die sie mit ihrem Oberbegriff Pferd gemeinsam haben, die Farbe ihres Fells ist ein Bedeutungselement, das die beiden unterscheidet). Die Klassen der Referenten zweier Kohyponyme sind disjunkt. Zum Abschluss dieses Abschnitts fassen wir die hier dargestellten strukturalistischen Theorien des lexikalischen Zeichens zusammen: • Diese Theorien sind lokal ATOMISTISCH. Es wird davon ausgegangen, dass die Bedeutung sprachlicher Zeichen sich in Bedeutungselemente zer9

Die Extension eines sprachlichen Zeichens sind die Objekte oder Klassen von Objekten, auf die sich dieses sprachliche Zeichen bezieht.

Lexikalische Semantik

25

legen lässt. Die Bedeutungselemente korrespondieren zu mentalen Zuständen und referieren auf Klassen außersprachlicher Dinge und Sachverhalte. • Der Begriff des Sems als Basiselement der Bedeutung sowie kombinatorische Operationen, die diese Seme zu größeren Einheiten, den Sememen, zusammenbringen, erlauben eine angemessene Darstellung einer Reihe von lexikalisch-semantischen Beziehungen. Der theoretische Rahmen des Strukturalismus, in welchen diese Modelle der lexikalischen Semantik eingebettet sind, scheint heute überholt. Innerhalb dieses theoretischen Rahmens war und ist es nicht möglich, mehr als einige Bereiche des Vokabulars zu beschreiben, die sich für eine solche Beschreibung besonders gut eignen, z.B. das lexikalische Feld der Verwandtschaftsbeziehungen. Trotzdem haben diese Theorien einen bedeutenden Einfluss auf die Semantik und die (Computer-)Lexikographie gehabt.

3 Komponentielle Semantik 3.1 Der Ansatz von Katz und Fodor Gerald Katz and Jerry Fodor entwickelten Ende der 60er und Anfang der 70er Jahre des vergangenen Jahrhunderts eine semantische Metatheorie im Rahmen der generativen Semantik. Diese Metatheorie nennt die Kriterien, denen eine semantische Theorie für sprachliche Zeichen natürlicher Sprache genügen muss. A semantic metatheory must provide criteria for evaluating individual semantic theories and establish the adequacy of such criteria. (Katz und Fodor (1963), S. 208) Im Allgemeinen muss eine semantische Theorie die Fähigkeit von Sprechern einer natürlichen Sprache erklären, eine theoretisch unendliche Menge wohlgeformter Äußerungen zu produzieren bzw. zu verstehen, d.h. korrekt zu interpretieren und explizieren zu können. Insbesondere muss eine semantische Theorie erklären können, wie Sprecher einer Sprache • die unterschiedlichen Lesarten von Sätzen und deren semantischen Inhalt bestimmen können; • semantische Abweichungen erkennen; • entscheiden, ob ein Satz die Paraphrase eines anderen Satzes ist oder nicht. Man erkennt den engen Bezug dieser semantischen Metatheorie zum Programm der generativen Grammatik. So bildet denn auch die Sprecherkompetenz den Bezugspunkt dieser semantischen Metatheorie: zur Kompetenz gehört z.B. die Fähigkeit, semantische Anomalien und bedeutungsgleiche Äußerungen zu erkennen. Im Bereich der Konstruktion von lexikalischen Einträgen, also Beschreibungen lexikalischer Einheiten, führen Katz und Fodor die Begriffe M ARKER und D ISTINGUISHER ein. The semantic markers and distinguishers are the means by which we can decompose the meaning of one sense of a lexical item into its atomic concepts, and thus exhibit the semantic structure in a dictionary entry and the semantic relations between dictionary entries. That is, the semantic relations among the various senses of different lexical items are represented by formal relations between markers and distinguishers. (Katz und Fodor (1963), S. 185f.) Die Marker entstammen einem begrenzten Vokabular zu einem gegebenen „konzeptuellen Raum“ (‚conceptual space‘). Sie bilden die primären lexikalischen Deskriptoren. Distinguisher sind sekundäre lexikalische Deskriptoren,

Lexikalische Semantik

27

deren Zweck es ist, Wortbedeutungen bis zum notwendigen Detaillierungsgrad zu unterscheiden. In Abbildung 4 ist das Konzept bachelor (‚Junggeselle‘) dargestellt. Marker sind mit runden, Distinguisher mit eckigen Klammern gekennzeichnet.

Abbildung 4: Marker und Distinguisher am Beispiel der semantischen Struktur von bachelor Katz und Fodors Annahme, die sie mit den meisten komponentiell orientierten Semantikern teilen, ist, dass es eine Menge von semantischen Basiskomponenten gibt. In diese Basiskomponenten können alle lexikalischen Zeichen – genauer: deren Inhaltsseiten – zerlegt werden. Der Begriff der Wortbedeutung beruht auf diesen Basiselementen und der vollständigen Zerlegbarkeit der Wortbedeutungen in diese Basiselemente, welche ein sprachunabhängiges, UNIVERSALES Vokabular bilden. Die Elemente dieses Vokabulars wiederum repräsentieren KONZEPTE, die die mentalen Korrelate der Wortbedeutungen bilden. Dieses Vokabular von Basiselementen sei hinreichend, um eine unendliche Menge von Äußerungen zu produzieren. Komponentielle Ansätze der Semantik waren auch im Bereich der künstliche-Intelligenz-Forschung populär. Eine endliche Menge von semantischen Basiseinheiten ist sehr praktisch, wenn man Bedeutungs- und Weltwissen in einer formalen und damit für den Rechner verarbeitbaren Weise modellieren möchte, z.B. für die maschinelle Übersetzung mithilfe einer Interlingua, vgl. Kapitel 6. Das Prinzip der vollständigen Zerlegbarkeit von Wortbedeutungen in einfachere Basiseinheiten ist aus der Phonologie übernommen. In dieser linguistischen Teildisziplin hat man erfolgreich das Phomeninventar der Sprachen auf eine begrenzte Menge sog. distinktiver Merkmale reduzieren können. Die folgende Äußerung von Chomsky (zitiert bei Pulman) belegt, dass diese Analogie tatsächlich gezogen wurde:

28

Lexikalische Semantik [T]he very notion ‚lexical entry‘ presupposes some sort of fixed, universal vocabulary in terms of which these objects are characterized, just as the notion ‚phonetic representation‘ presupposes some sort of universal phonetic theory. (zit. in Pulman (1983), S. 29)

In der Tat ist das Unterfangen, ein universales Vokabular von semantischen Basiseinheiten zu finden, faszinierend: • Ein solches Vokabular wäre eine generative Bedeutungskomponente, da prinzipiell eine unendliche Menge von Wortbedeutungen aus dieser endlichen Menge konstruiert werden könnte. • Aufgrund der möglichen Kombinationen könnten die lexikalischen Lücken von Einzelsprachen als nicht realisierte Kombinationen der Basiseinheiten identifiziert werden (im Deutschen gibt es z.B. kein lexikalisches Zeichen, das den Zustand ‚keinen Durst mehr habend‘ bezeichnet). • Lexikalische Zeichen könnten in Felder gruppiert werden, deren Struktur durch Oppositionen der Basiselemente gebildet wird. Wir haben uns bei dieser Darstellung bewusst für den Irrealis entschieden, da sich dieses Programm im weiteren Verlauf als undurchführbar und die damit verbundenen wissenschaftlichen Perspektiven als unrealistisch erwiesen haben. Schon bald wurde Kritik an der undifferenzierten Analogie zur Phonologie laut. So schreibt etwa Pulman (vgl. Pulman (1983), S. 30): [...] the distinctive features of phonemes are in principle relatable to properties of the human vocal tract, acoustic properties and properties of the perceptual system, and the set of distinctive features is therefore constrained by the observable facts of human physiology. Languages are strictly comparable with respect to these properties. Nothing of this holds for semantic markers or ‚concepts‘. The existence of a limited set of basic concepts is mere speculation as is our intuition that ‚the same concept‘ is expressed by lexical items in different languages. Es ist unmöglich, ein System von semantischen Markern als Basiselementen der Bedeutung auf die Gegebenheiten eines beobachtbaren, außersprachlichen Systems zu stützen. Wir haben keinen Zugang zu den mentalen Zuständen, die den Konzepten entsprechen könnten. Wenn man also, wie dies wiederholt gemacht wurde, das Verb to kill (‚töten‘) auf einen Ausdruck CAUSE(X, Y) AND BECOME_NOT_ALIVE(Y) einer semantischen Metasprache abbildet, so verwendet man da-

Lexikalische Semantik

29

mit noch lange keine Konzepte, deren Existenz nachgewiesen wäre, sondern lediglich andere Ausdrücke der englischen Sprache10 . Neben diesen prinzipiellen wissenschaftlichen Problemen der komponentiellen Semantik entstehen die folgenden praktischen Probleme, wenn man dieses Programm ernsthaft verfolgen wollte: • Es besteht keine Einigkeit über den Inhalt und Umfang des Vokabulars einer semantischen Metasprache. Entsprechend problematisch ist die Abgrenzung zwischen Markern und Distinguishern. • Es gibt keine Einigkeit über die Methoden, mit denen man semantische Marker entdecken könnte. • Es gibt keine Einigkeit darüber, welches Vokabular von Basiselementen ausreichend ist, um alle möglichen Wortbedeutungen zu konstruieren, oder zumindest die existierenden Wortbedeutungen einer Sprache. Wenn man das Programm der Ermittlung semantischer Basiseinheiten exhaustiv verfolgt, dann wird dieses Vokabular mit großer Wahrscheinlichkeit den Umfang des natürlichen Vokabulars der untersuchten Sprache erreichen. Damit entfällt natürlich auch jegliche Rechtfertigung für die Bildung eines Metavokabulars. Trotz dieser prinzipiellen und praktischen Probleme hatte die komponentielle Semantik Auswirkungen auf die praktische Lexikographie. Die komponentielle Semantik bietet den Rahmen, um die komplexe Bedeutung lexikalischer Zeichen (z.B. töten) als eine Kombination von lexikalischen Zeichen mit einfacherer Bedeutung darzustellen (z.B. bewirken, nicht, leben). Die Menge der hierfür benötigten lexikalischen Zeichen mit einfacher Bedeutung könnte das Basisvokabular lexikalischer Bedeutungsbeschreibungen bilden. Basisvokabular und die mit diesem Vokabular beschriebenen sprachlichen Zeichen, also Objektsprache und Metasprache, entstammen dabei derselben natürlichen Sprache, z.B. dem Englischen oder dem Deutschen. So verwendet z.B. das ‚Longman Dictionary of Contemporary English‘ eine Liste von Basiseinheiten, das sog. Defining Vocabulary (vgl. Quirk (1995), S. B16). Es umfasst ca. 2000 lexikalische Einheiten. In den Bedeutungsbeschreibungen der anderen lexikalischen Einheiten werden, wo immer dies möglich ist, nur diese Basislexeme verwendet. Dahinter steht die Überlegung, dass Lerner, die zunächst die Bedeutungen dieser elementaren lexikalischen Einheiten lernen, mithilfe dieser einfacheren Einheiten die Bedeutungen der schwierigeren lexikalischen Einheiten entschlüsseln können. 10

Man könnte auch Ausdrücke der polnischen Sprache verwenden, das macht keinen Unterschied. Wichtig ist, dass man keinen Zugang auf die Konzepte hinter den sprachlichen Ausdrücken hat.

30

Lexikalische Semantik

3.2 Der Ansatz von Wierzbicka In seiner kritischen Würdigung der komponentiellen Semantik versucht Pulman, die Idee der semantischen Marker dadurch zu retten, dass er diesen den Status von normalen englischen Wörtern gibt: Consider the claim that AND, LIKE and INCHOATIVE are semantic primes in the sense that they are part of a basic sub-vocabulary of English [...] suitable for the partial or total description of many other English words which they can, in combination, paraphrase [...] the enterprise of semantic description on the level of word meaning is the adoption of this sub-vocabulary as a metalanguage. (vgl. Pulman (1983), S. 37) Dieses Zitat beschreibt ziemlich gut das Forschungsprogramm von Anna Wierzbicka, die versucht, eine Menge von semantischen Primitiven als Untermenge des Vokabulars der Objektsprache festzulegen11 . Sie schreibt: • The lexicon of any language can be divided into two parts: a small set of words [...] that can be regarded as indefinable, and a large set of words that [...] in fact can be defined in terms of the words from the set of indefinables. • For any language, its indefinables can be listed [...] • Although the set of indefinables is in each case language specific, one can hypothesize that each such set realizes, in its own way, the same universal and innate ‚alphabet of human thought‘. (Wierzbicka (1992), S. 209) Wierzbicka postuliert zunächst 14 semantische Primitive für das Englische, unter Anderen: I, WANT, KIND , NO12 . Die Bedeutungen der anderen englischen Wörter seien „Konfigurationen“ dieser semantischen Primitive. In ihrem hier zitierten Aufsatz aus dem Jahr 1992 beschreibt sie unter anderem das Wortfeld der (englischen) Verben, die Sprechakte bezeichnen. Sprechakte sind für sie „things that one can do with words“. In den nun folgenden Beispielen aus dieser Arbeit werden wir den definierten Term in Großbuchstaben schreiben. Die Definitionen selbst stehen in einfachen Anführungszeichen. • ASK und ORDER: ‚(I say:) I want you to do it‘ • ORDER impliziert: ‚(I think:) you have to do it‘ • ASK impliziert dies nicht: ‚(I think:) you don’t have to do it because of this‘. 11 12

vgl. Wierzbicka (1992), S. 209ff. Für die vollständige Liste vgl. Wierzbicka (1992), S. 210.

Lexikalische Semantik

31

Eine Stärke des Ansatzes, Bedeutungen mithilfe eines kontrollierten Vokabulars zu paraphrasieren, liegt darin, dass man semantische Differenzen, die Unterschieden in den syntaktischen Verwendungsweisen der lexikalischen Einheiten entsprechen, genauer herausarbeiten kann. So beinhalten die Sprechakte PLEAD , ARGUE und REASON (‚plädieren‘, ‚streiten‘, ‚auseinandersetzen‘) den Austausch von Argumenten. Dementsprechend kann die Rolle des Adressaten syntaktisch realisiert werden: plead, argue, reason WITH SOMEBODY. Diese Verknüpfung von semantischer und syntaktischer Ebene kann allerdings zu einer zirkulären Argumentation führen. Die syntaktischen Verwendungsmuster eines Wortes sind der Beobachtung – z.B. in einem Textkorpus – unmittelbar zugänglich, die Bedeutung eines Wortes aber bestenfalls mittelbar. Man könnte geneigt sein, aus Differenzen in der syntaktischen Verwendungsweise zweier Wörter auf semantische Unterschiede zu schließen und anschließend zu behaupten, dass diese Bedeutungsunterschiede die Differenzen in der syntaktischen Verwendungsweise „bewirken“. Einige der Einwände, die gegen das strukturalistische Konzept von Semen und Sememen und auch gegen den Ansatz von Katz und Fodor vorgebracht wurden, können hier wiederholt werden: Zunächst wirkt die Auswahl des Basisvokabulars von semantischen Primitiven arbiträr. Es gibt keine außersemantische Argumentation, mit der diese Auswahl gerechtfertigt werden könnte. Wierzbicka erweitert im Laufe ihrer Arbeit das Vokabular der semantischen Primitive von zunächst 14 auf 30. Ebenso bleibt die Behauptung, dass diese Menge von semantischen Primitiven, seien es nun 14 oder 30, das Basisvokabular des menschlichen Denkens bilde, jedenfalls in seiner englischsprachigen Version, unbewiesen. Diese Behauptung ist für die praktische Arbeit mit diesen semantischen Primitiven allerdings unerheblich. Die Zerlegung von Bedeutungen in diese semantischen Primitive ist dennoch nützlich, um generische Schemata oder Bedeutungskonfigurationen zu ermitteln sowie Beziehungen zwischen einzelnen Bedeutungen. Damit lassen sich sowohl Polysemiestrukturen einzelner lexikalischer Zeichen als auch lexikalisch-semantische Beziehungen zwischen lexikalischen Zeichen formal als Gemeinsamkeiten und Differenzen in den Bedeutungskomponenten darstellen.

3.3 Das generative Lexikon Ein neuerer Ansatz der komponentiellen Semantik, der viele Anhänger in der Computerlinguistik gefunden hat, stammt von James Pustejovsky. Seine Beliebtheit bei Computerlinguisten ist allerdings nicht der einzige Grund, diesen

32

Lexikalische Semantik

Ansatz hier zu besprechen. Pustejovskys Ansatz hat auch einige interessante Arbeiten in der Computerlexikographie inspiriert. Sein Begriff der semantischen Primitive weicht stark von der „traditionellen“ Auffassung, wie sie etwa von Wierzbicka vertreten wird, ab. Er sucht stattdessen: [...] a new way of viewing primitives, looking more at the generative or compositional aspects of lexical semantics, rather than the decomposition into a specified number of primitives [...] (Pustejovsky (1991), S. 417) Pustejovsky betrachtet das Verhältnis von logischer und syntaktischer Form sprachlicher Äußerungen. Die syntaktische Struktur sprachlicher Äußerungen ist der Ausgangspunkt seiner Beschreibungen. Ohne deren Untersuchung und Beschreibung sei eine lexikalisch-semantische Theorie zum Scheitern verurteilt13 . Pustejovskys Ansatz ist es, die logische Form von Äußerungen auf das Lexikon im Allgemeinen und auf generative Mechanismen (G ENERATIVE DEVICES ) des Lexikons im Besonderen zu stützen. Durch eine vollständig kompositionelle Semantik natürlicher Sprache versucht Pustejovsky, die generative Kapazität der Sprache zu erklären14 . Dies umfasst die Fähigkeit der Sprecher, semantisch wohlgeformte von nichtwohlgeformten Äußerungen zu unterscheiden. Wir haben diese Fähigkeit bereits im Ansatz von Katz und Fodor als Kriterium einer semantischen Theorie kennengelernt. Stärkeren Bezug zur lexikalischen Semantik haben Pustejovskys Versuche, Erklärungen für die sprachlichen Phänomene der M ETONYMIE15 und der P OLYSEMIE zu finden. Metonymie Pustejovskys Begriff der Metonymie geht auf Geoffrey Nunberg (1978) zurück. Danach bedeutet dieser Begriff, dass eine Phrase an Stelle einer anderen Phrase gebraucht wird. Pustejovsky gibt die folgenden Beispiele: (1)

13 14 15

John began the book (John begann das Buch). Erläuterung: die Bedeutung kann sein, dass John begann, ein Buch zu lesen oder ein Buch zu schreiben.

Vgl. Pustejovsky (1991), S. 410. Vgl. Pustejovsky (1991), S. 419. Die Metonymie ist eine Stilfigur, bei der ein Ausdruck durch einen anderen ersetzt wird, der mit ersterem in sachlichem, aber nicht in semantisch-begrifflichem Zusammenhang steht, z.B. Ersetzung eines Wortes, das ein Getränk bezeichnet, durch ein Wort, das ein Gefäß bezeichnet, das dieses Getränk typischerweise enthält, in Ich nehme noch ein Glas.

Lexikalische Semantik

33

(2)

John began the cigarette (John begann die Zigarette). Erläuterung: John begann damit, die Zigarette zu rauchen.

(3)

John began the beer (John begann das Bier). Erläuterung: John begann damit, das Bier zu trinken.

(4)

Mary enjoyed the book (Maria genoss das Buch). Erläuterung: Maria genoss es, das Buch zu lesen.

(5)

Mary enjoyed the cigarette (Maria genoss die Zigarette).

In all diesen Beispielen übernimmt das Objekt des Satzes (das Buch, das Bier, etc.) die Rolle der Verbalphrase, die die eigentliche Handlung ausdrückt (lesen, trinken etc.). Die Ereignislesart des (Teil-)Satzes, die normalerweise durch das Verb vermittelt wird, das ein Teil des kompletten Arguments des Hauptverbs wäre (beginnen), wird nun durch die Nominalphrase getragen. In Pustejovskys Worten wird der Kopf der Objekt-Nominalphrase in die Rolle des Ereignistyps gezwungen. Reguläre Polysemie Um das Phänomen der regulären Polysemie sprachlicher Zeichen zu erklären, wählt Pustejovsky die folgenden Beispiele: (6)

He baked the potato (Er backte die Kartoffel).

(7)

He baked the cake (Er backte den Kuchen).

In Beispiel (6) wird eine Zustandsänderung (der Kartoffel) ausgedrückt, wohingegen in Beispiel (7) ein Objekt (der Kuchen) geschaffen wird. Anstatt nun einen Bedeutungswechsel beim Verb anzunehmen, und dieses als polysem zu beschreiben, geht Pustejovksy einen anderen Weg und schreibt den Bedeutungsunterschied in beiden Sätzen allein dem Objekt zu: [W]e can derive both word senses of verbs like bake by putting some of the semantic weight on the NP. This view suggests that [...] the verb itself is not polysemous. (Pustejovsky (1991), S. 423) Was an den obigen Beispielen anhand einer Verb-Komplement-Struktur16 gezeigt wurde, funktioniert auch bei Nomen-Modifikator-Strukturen17 , wie die folgenden Beispiele zeigen: (8) 16

17

She is a fast typist (Sie ist eine schnelle Tipperin). Erläuterung: Sie ist eine Person, die schnell tippt.

Eine Verb-Komplement-Struktur ist ein Fügung aus einem Verb (z.B. backen) und dessen notwendiger Ergänzung (z.B. Kuchen). Eine Nomen-Modifikator-Struktur ist eine Fügung aus einem Substantiv (z.B. Entscheidung) und einem modifizierenden Element, meistens einem Adjektiv (z.B. schnell).

34

Lexikalische Semantik

(9)

This is a fast car (Dies ist ein schnelles Auto). Erläuterung: Dies ist ein Auto, das schnell fährt.

(10)

This is a fast waltz (Dies ist ein schneller Walzer). Erläuterung: Dies ist ein Walzer mit schnellem Tempo.

Anstatt den Modifikator als ambig darzustellen, nimmt Pustejovsky an, dass die Nominalphrase, welche durch das Adjektiv modifiziert wird, die Bedeutungsverschiebung in den obigen Sätzen auslöst. Die Modifizierung in diesen Sätzen ist verschiedenen Bedeutungsaspekten des Nomens geschuldet, in Pustejovskys Terminologie: Unterschieden in deren Qualiastruktur. Lexikalisch-semantische Beschreibungen im generativen Lexikon Die Maschinerie, die Pustejovsky verwendet, um die Phänomene der logischen Metonymie und der regulären Polysemie (auch Sinnerweiterung genannt)18 zu beschreiben, entstammt der lexikalischen Semantik, da sie auf Strukturen der Wortbedeutung aufbaut: [T]he theory of decomposition outlined here is based on the central idea that word meaning is highly structured, and not simply a set of semantic features. (Pustejovsky (1991), S. 419) Die Bedeutung einer lexikalischen Einheit besteht aus den folgenden Komponenten: • • • •

der Argumentstruktur (‚argument structure‘), der Ereignisstruktur (‚event structure‘), der Qualiastruktur (‚qualia structure‘), der Vererbungsstruktur (‚inheritance structure‘).

Wir werden uns hier auf die Beschreibung der Qualiastruktur19 beschränken. Diese stellt Pustejovskys originären Beitrag zur lexikalischen Semantik dar. Die Qualiastruktur eines Wortes spezifiziert die folgenden Aspekte seiner Bedeutung: • die Beziehung zwischen dem (außersprachlichen) Denotat und seinen Bestandteilen (C ONSTITUTIVE ROLE). Dies können das Material, das Gewicht oder Teile und Komponenten sein (z.B. Fenster – Glas); • die physikalischen Eigenschaften des Denotats und seine Gestalteigenschaften, die es gegenüber seiner Umwelt hervorheben (F ORMAL ROLE). Dies können die räumliche Anordnung, die Größe, die Form, die Dimensionalität, die Farbe und die Position sein (z.B. Türrahmen – Öffnung); 18 19

Auf die reguläre Polysemie gehen wir in Abschnitt 5.5 dieses Kapitels ausführlicher ein. Das Konzept der Q UALIA geht auf Aristoteles zurück, wie Stephan Walter (2001) ausführlich in seiner Diplomarbeit darlegt.

Lexikalische Semantik

35

• der Zweck oder die Funktion des Denotats (T ELIC ROLE), z.B. der Zweck, den dieses Denotat bei der Ausführung einer Handlung hat (z.B. Buch – lesen); • die Umstände seiner Entstehung (AGENTIVE ROLE). Dies können der Erschaffer bzw. Hersteller sein oder die Unterscheidung zwischen natürlicher Art (Pflanze, Tier, Holz etc.) und Artefakt (Computer, Stuhl). Auf den ersten Blick wirkt diese Liste arbiträr. Auf den zweiten Blick wird man anerkennen müssen, dass diese vier Kategorien konzeptuellen Kategorien oder unserem Basiswissen über ein Objekt oder ein Ereignis bzw. einen Sachverhalt entsprechen20 . Darüber hinaus hilft die Qualiastruktur, die oben mit den Beispielen (1) bis (10) illustrierten Phänomene zu erklären: 1. Die Beispiele für logische Metonymie können mit Bezug auf den Zweck oder die Funktion des Denotats (Telic role) des Objektnomens erklärt werden. Zweck und Ziel eines Buches ist es, gelesen zu werden, eines Bieres, getrunken zu werden, usw. Das Verb kann sich in angemessenen Kontexten auch auf die Umstände der Entstehung (Agentive role) des durch das Objektnomen Bezeichneten beziehen. Ein Buch wird geschrieben bzw. verfasst. Bei unserem oben genannten Buch-Beispiel haben wir es also wieder mit einer Mehrdeutigkeit zu tun. Ein Buch beginnen kann also heißen, dass man das Schreiben oder das Lesen eines Buchs beginnt. Da Bücher aber wahrscheinlich häufiger gelesen als geschrieben werden (jedenfalls hoffen wir das von diesem Buch sagen zu können), ist die Lesart ein Buch lesen wahrscheinlicher als ein Buch schreiben. 2. Reguläre Polysemie kann in ähnlicher Weise erklärt werden. Das Adjektiv schnell in den oben genannten Beispielen bezieht sich auf die Telic role des durch das modifizierte Nomen Bezeichneten. In diesem Sinn modifiziert das Adjektiv nicht das Nomen, sondern ein Ereignisverb (fahren, tippen, usw.), hat also adverbialen Charakter. Die Interpretation der Beispielsätze gelingt deshalb auch, wenn man von einem einzigen Sinn des Modifikators ausgeht. Ähnliches lässt sich vom Verb backen sagen, das sich in unserem Beispiel auf die Umstände der Entstehung des Objekts bezieht. Das Bezugsobjekt ist entweder ein Artefakt (im Falle des Kuchens) oder ein natürlich entstandenes Objekt (im Falle der Kartoffel). Dieser Unterschied bedingt den Unterschied im Prozess des Backens. Pustejovsky nennt diese Konstruktionen von Verben und bestimmten Aspekten der Bezugsnomen KOSPEZIFIKATION (‚cospecification‘) (vgl. Pustejovsky (1991), S. 422).

20

Vgl. Pustejovsky (1991), S. 427.

36

Lexikalische Semantik

Widersprüchliche Beobachtungen Wenn man sich die wenigen Daten ansieht, die Pustejovsky in seinen Artikeln heranzieht, dann erscheinen seine theoretischen Schlussfolgerungen überzeugend. Es drängt sich jedoch die Frage auf, ob die Theorie der Qualiastrukturen auch auf einen größeren Teil des Lexikons anwendbar ist. Zunächst wollen wir sehen, ob die metonymischen beginnen- und genießen-Konstruktionen sich auf weitere Nomen als die paar oben erwähnten Beispiele anwenden lassen. Es gibt auch Gegenbeispiele, die wir aus Verspoors Dissertation zitieren (vgl. Verspoor (1997)). Die folgenden Beispiele mit beginnen klingen seltsam, wenn nicht sogar falsch. Nach Pustejovskys Theorie müssten sie aber wohlgeformt sein, da hier, wie in den obigen Beispielen, beginnen sich mit der Zweck-Rolle aus der Qualiastruktur des Objektnomens verbindet. Die vermutlich weggelassenen Verben werden hier in Klammern angegeben. (11)

John began the film – John begann den Film (=anschauen)

(12)

John began the door – John begann die Tür (=hindurchgehen)

(13)

John began the nails – John begann die Nägel (=einschlagen)

Verspoor stellt dem entgegen, dass auch keine aspektuellen Eigenschaften des Verbs beginnen hinreichen, um zu erklären, warum diese Beispiele merkwürdig oder falsch klingen. Korpusanalysen Verspoor stellt die Frage, wie verbreitet metonymische Konstruktionen für die genannten und ähnliche Verben (begin, finish, etc.) im Sprachgebrauch sind. Sie durchsucht das 100 Millionen Wörter große British National Corpus (BNC) und zusätzlich das Lund Oslo Bergen (LOB) Korpus des Britischen Englisch. Sie kommt zu dem Ergebnis, dass metonymische Konstruktionen mit diesen Verben selten vorkommen. Tatsächlich machen sie gerade mal ein halbes Prozent aller Verwendungen des Verbs begin aus. Metonymische Konstruktionen mit dem Verb finish sind etwas häufiger21 . Die qualitative Untersuchung der Korpusbelege ist noch interessanter. Die Menge an Objektnomen, die Teil von metonymischen Konstruktionen mit begin und finish sind, ist nämlich ebenfalls sehr gering. Auf Seite 186 ihrer Dissertation listet Verspoor alle Beispiele auf und ordnet sie insgesamt 16 Kategorien zu. Dies sind u.a. • eat FOOD / MEAL (Essen, Mahlzeit) 21

Vgl. Verspoor (1997), S. 186.

Lexikalische Semantik

37

• drink LIQUID (Flüssigkeiten) • smoke cigarette (Rauchwaren, aber z.B. nicht pipe (Pfeife)) • do business (Geschäfte) Die Beschränkung dieser Konstruktionen auf eine relativ kleine Zahl nominaler Kategorien scheint willkürlich zu sein und bedarf einer weiteren Deutung. Auch Pustejovsky und Bouillon22 haben das Problem erkannt und schlagen vor, die Menge der Nomenkategorien, die in diesen metonymischen Konstruktionen Platz finden, durch eine reichere Qualiastruktur systematisch beschränken bzw. bestimmen zu können. Verspoor wählt einen anderen Weg, um diese Beschränkungen zu erklären. Sie vermutet, dass ein gewisser Grad an Konventionalisierung diese an sich ungewöhnlichen Konstruktionen lizensiert. Ein Nomen wird stärker an Verben gebunden, die typischerweise mit diesem Nomen vorkommen, und nur in diesen typischen Verbindungen ist diese metonymische Konstruktion akzeptabel23 . Vorkommensfrequenz spielt also bei der Entscheidung, ob eine metonymische Konstruktion akzeptabel ist, eine Rolle. Verfeinerung der Regeln Mit Bezug auf Arbeiten von Godard und Jayez24 und Pustejovsky und Bouillon25 präsentiert Verspoor schließlich fünf Prinzipien, welche die Beschränkung von metonymischen Konstruktionen auf bestimmte Nomenklassen bestimmen und erklären helfen26 . Die unakzeptablen Konstruktionen, die durch das jeweilige Prinzip ausgeschlossen werden, sind in Klammern hinter jedem Prinzip genannt. Die Beispiele entnehmen wir den Arbeiten von Verspoor und von Pustejovsky und Bouillon. 1. Die aspektuellen Verben (beginnen etc.) fungieren als Kontrollverben, d.h. dass das Subjekt des Matrixverbs auch das nicht-realisierte Subjekt der verkürzten Verbalphrase ist. Diese Regel erklärt, dass Beispiel (14) nicht wohlgeformt ist. 2. Die Nominalphrase in der metonymischen Konstruktion muss auf eine begrenzte Entität oder Menge referieren. Diese Einschränkung erklärt, warum Beispiel (16) nicht wohlgeformt ist. 3. Die Nominalphrase in der metonymischen Konstruktion muss sich auf ein Objekt beziehen und nicht auf ein Ereignis. In dem Satz Maria begann ihre Rede ist keine Inkompatibilität der semantischen Typen nachzuweisen, da sich das Objektnomen Rede bereits auf ein Ereignis bezieht. 22 23 24 25 26

Vgl. Pustejovsky und Bouillon (1995). Vgl. Verspoor (1997), S. 188. Vgl. Godard und Jayez (1993). Vgl. Pustejovsky und Bouillon (1995). Vgl. Verspoor (1997), Kapitel 5.5.

38

Lexikalische Semantik

4. Die standardmäßige Interpretation einer metonymischen Konstruktion bezieht sich auf die Umstände der Entstehung des Objektnomendenotats (die Agentive role) oder auf den Zweck (die Telic role). Die Standardinterpretationen werden deshalb von der lexikalischen Spezifikation des Objektnomens in dessen Qualiastruktur hergeleitet. Diese Regel schließt Beispiel (17) aus, bei dem dem Objektnomendenotat weder eine klare agentive Rolle noch eine klar telische Rolle zugeschrieben werden kann. 5. Ereignisverben unterscheiden sich in der Art und Weise ihrer Interaktion mit dem Kontext. In dieser Hinsicht unterscheiden sich begin und enjoy. Einige Verben, etwa enjoy, erlauben die Überdeckung der lexikalischen Bedeutung des Objektnomens durch den Kontext, und damit eine kontextuelle Umdeutung, andere Verben, etwa begin erlauben dies nicht. Das Verhältnis von Ereignisverben zum Kontext gehört zum Sprecherwissen, das in die Interpretation von Äußerungen einfließt. Auf diese Weise gelingt es, einige Äußerungen in sinnvoller Weise zu interpretieren. So ist das Beispiel (19) inakzeptabel, wohingegen Beispiel (20) im Kontext von Beispiel (18) sinnvoll interpretiert werden kann. Die Prinzipien beziehen sich auf die folgenden, zum Teil akzeptablen, zum Teil unakzeptablen, Beispiele: (14)

*The acid began the marble (corrode) – Die Säure begann den Marmor (zersetzen)

(15)

John began the cheese / book (eat/read) – John begann das Buch / den Käse (essen/lesen)

(16)

*John began cheese / books (eat/read) – John begann Bücher/Käse (essen/lesen)

(17)

*John began the stone (kick??) – John begann den Stein (treten??)

(18)

John will be audited by the tax service, so he has been destroying things which might incriminate him. He has destroyed the files and the computer disks. – Die Steuerprüfung wird Johns Unterlagen prüfen. Er hat bereits Dinge vernichtet, die ihn belasten könnten. Er hat Akten und Disketten vernichtet.

(19)

*He will begin the books tomorrow (destroy) – Er wird morgen die Bücher beginnen (vernichten)

(20)

He will begin on the books tomorrow (destroy) – Er wird morgen mit den Büchern beginnen (vernichten)

(21)

My goat likes to eat everything it finds. – Meine Ziege isst alles, was sie findet.

Lexikalische Semantik (22)

39

In particular, it enjoyed your book (eat) – Besonders gern mochte sie dein Buch (essen).

Es ist allerdings zu beachten dass keines der oben genannten Prinzipien Beispiel (11) ausschließt. Prinzip vier könnte wohl so ausgelegt werden, dass die Agentive role hier standardmäßig aktiviert wird und die Standardinterpretation die ist, dass John Regisseur oder Produzent ist. Im Falle des Buches wird allerdings zunächst die Telic role aktiviert, was bei der Interpretation mit unseren Erwartungen bzw. unserem Hintergrundwissen zu erklären ist: ein Buch wird eher gelesen als geschrieben. Brauchen wir die Qualiastruktur? Natürlich ist diese Frage polemisch, aber man sollte zumindest Verspoors Forderung nach einer genaueren Untersuchung ernst nehmen: More generally, an investigation of the motivation for qualia structure seems necessary at this juncture, including a theory of how qualia structure is acquired when learning a language and what dictates the inclusion of information in qualia structure in the lexicon. (Verspoor (1997), S. 204)

4 Relationale Semantik 4.1 Einführung Nachdem wir den Begriff der Bedeutung für einzelne sprachliche Zeichen ausführlich besprochen haben, wenden wir uns nun den relationalen Strukturen innerhalb des Lexikons zu. Es geht um die lexikalisch-semantischen Beziehungen zwischen sprachlichen Zeichen. Die Struktur des Lexikons einer Sprache enthält zwei Arten von Beziehungen: • •

B EZIEHUNGEN und B EZIEHUNGEN.

PARADIGMATISCHE SYNTAGMATISCHE

Paradigmatische Beziehungen bestehen zwischen Wörtern, die in systematischer Weise bedeutungsverwandt sind. Meist betrifft dies Wörter derselben Wortart, z.B. halten/festhalten, fleißig/emsig, Wut/ Zorn. Alle Wortpaare sind Synonyme zueinander. Wörter können aber auch wortartübergreifend in Wortfamilien gruppiert sein, z.B. Wut, wütend, wüten. Neben den etablierten lexikalisch-semantischen Beziehungen kann man assoziative Beziehungen aufstellen, etwa zwischen Blume und duften. Ein wichtiger Aspekt paradigmatischer Relationen ist es, dass die Mitglieder einer solchen Relation in Satzkontexten gegeneinander austauschbar sind, wobei die Bedeutung des Satzes unverändert bleibt (Synonymie) oder sich in systematischer Weise verändert (etwa bei der Antonymie). Syntagmatische Relationen hingegen basieren auf dem gemeinsamen Vorkommen der so verbundenen Wörter in sprachlichen Äußerungen. Die bekanntesten syntagmatischen Beziehungen sind: die Kollokation (z.B. Tisch decken, Antrag stellen, gelber Sack), Funktionsverbgefüge (z.B. zum Abschluss bringen) und typische Verb-Komplement-Beziehungen wie Apfel essen. Letztere wurden wiederholt als Instanzen von Selektionsbeschränkungen oder Selektionspräferenzen modelliert, in dem Sinne, dass essen nur Lebensmittel in der Objektposition selegiert.

4.2 Paradigmatische Beziehungen Im Folgenden geben wir einen Überblick über die wichtigsten paradigmatischen Beziehungen zwischen lexikalischen Zeichen. Synonymie Die Synonymie verbindet Wörter mit gleicher (denotativer) Bedeutung, wie etwa Streichholz und Zündholz. Synonyme sind idealerweise in allen Kontexten austauschbar, ohne dass sich die Bedeutung des Kontextes verändert. Dies

Lexikalische Semantik

41

ist allerdings in den wenigsten Fällen so, da sich auch scheinbar bedeutungsgleiche Wörter wie ordnen und aufräumen in subtilen Bedeutungsnuancen unterscheiden können, vgl. Beispiele (23) und (24). (23)

Jenny ordnet ihre Papiere.

(24)

Jenny räumt ihr Büro auf.

Plesionymie Plesionyme oder Quasi-Synonyme haben eine sehr ähnliche, aber eben nicht identische Bedeutung. Dies dürfte für weitaus mehr Wortpaare zutreffen als Bedeutungsgleichheit, also echte Synonymie. Eine detaillierte Diskussion der Plesionymie findet sich bei Edmonds und Hirst (vgl. Edmonds und Hirst (2002)). Ein gutes Beispiel ist das Wortpaar Handeln/Tun. Das erste Wort hat eine eher positive Konnotation, das zweite Wort einen eher negativen Beigeschmack, was man anhand von Korpusbelegen überprüfen kann. Hyperonymie und Hyponymie Diese Beziehung zwischen Unter- und Oberbegriff sorgt für den hierarchischen Aufbau des Lexikons oder für die Ordnung des Vokabulars vom allgemeinsten Begriff (Ding, Handlung etc.) zum spezifischen Begriff (z.B. Plasmabildschirm). Plasmabildschirm und LCD-Bildschirm sind beides Hyponyme des gemeinsamen Hyperonyms Bildschirm. Cruse definiert die Beziehung der Hyponymie mit den Mitteln der (erlaubten) logischen Folgerungen zwischen Sätzen, die einen Ober- bzw. Unterbegriff enthalten (vgl. Cruse (1986), S. 89ff.). Aus dem Satz In dieser Vase steht eine Rose folgt In dieser Vase steht eine Blume, nicht aber umgekehrt. Holonymie/Meronymie Dies ist die Beziehung zwischen einem Ganzen (z.B. dem Holonym Rad) und seinen Teilen (z.B. den Meronymen Speiche, Nabe). Interessanterweise ist diese Beziehung nicht symmetrisch, wie das folgende Beispiel zeigt: (25)

Apfelkuchen ist das Holonym zu Apfel.

Zwar enthält jeder Apfelkuchen (hoffentlich) Äpfel, aber nicht jeder Apfel ist Teil eines Apfelkuchens, der Begriff Apfel kann daher nicht als Meronym zu Apfelkuchen beschrieben werden. Dies ist ein Grund, zwei verschiedene Relationen mit verschiedenen Richtungen anzusetzen. Weiterhin zeigt Roger Chaffin (vgl. Chaffin (1992)), dass die Beziehung der Holonymie bzw. Meronymie nicht zwangsläufig transitiv ist – im Ge-

42

Lexikalische Semantik

gensatz etwa zur Relation der Hyperonymie/Hyponymie. Betrachten wir die folgenden Beispiele: (26)

The head IS PART OF the statue – Der Kopf ist Teil der Statue

(27)

The statue IS PART OF the Etruscan collection – Die Statue ist Teil der Etruskischen Sammlung

(28) ??The head IS PART OF the Etruscan collection – Der Kopf ist Teil der Etruskischen Sammlung (29)

Fingers ARE PART OF the hand – Finger sind Teil der Hand

(30)

The hand IS PART OF the arm – Die Hand ist Teil des Arms

(31) ??Fingers are part of the arm – Finger sind Teil des Arms Die Beispiele (28) und (31) sind als Schlüsse aus den Beispielen (26) bzw. (29) und den Beispielen (27) bzw. (30) merkwürdig. Diese Merkwürdigkeit des Schlusses liegt laut Chaffin daran, dass die Teil-Ganzes-Beziehungen in den Beispielen (26) / (29) und (27) / (30) von verschiedener Art sind. In Beispiel (26) handelt es sich z.B. um eine Beziehung zwischen einem Teil einer Ganzheit, in Beispiel (27) um das Mitglied einer Kollektion. Bei den Beispielen (29) und (30) sind die Verhältnisse genau umgekehrt. Chaffin schlägt deshalb vor, die Teil-Ganzes-Relation in sieben Unterrelationen aufzuteilen27 . • • • • • • •

OBJECT : COMPONENT (z.B. Tasse : Griff ) EVENT : FEATURE (z.B. Stierkampf : Torero) COLLECTION : MEMBER (z.B. Wald : Baum) MASS : PORTION (z.B. Brot : Scheibe) PROCESS : PHASE (z.B. Begräbnis : Aussegnung) AREA : PLACE (z.B. Wald : Lichtung) OBJECT : STUFF (z.B. Fenster : Glas)

Während also in den Beispielen (26) und (29) die Unterrelationen COMPONENT und MEMBER vermischt wurden, ist dies beim folgenden Beispiel nicht der Fall, der Schluss in Beispiel (34) ist deshalb gültig:

27

(32)

The carburator is part of the engine (COMPONENT) – Der Vergaser ist Teil des Motors

(33)

The engine is part of the car (COMPONENT) – Der Motor ist Teil des Autos

(34)

The carburator is part of the car (COMPONENT) – Der Vergaser ist Teil des Autos

Vgl. Chaffin (1992), S. 263. Tabelle 10.5.

Lexikalische Semantik

43

Inkompatibilität Diese Relation besteht zwischen lexikalischen Einheiten28 , die, wenn sie in einem Satz gegeneinander ausgetauscht werden, die Bedeutung der resultierenden Sätze umkehren, so dass die beiden Sätze einander widersprechen. Lyons unterscheidet drei Arten der Inkompatibilität: Antonymie: Die Antonymie umfasst Kontraste oder Extrempunkte bei skalierbaren Merkmalen (z.B. GROSS-KLEIN, KALT-WARM). Dazu zählen auch implizit skalierbare Merkmale wie z.B. VIELE-WENIGE. Die Gradierbarkeit ist hier implizit, da die Norm, nach der sich die Verwendung dieses Merkmals richtet, implizit ist. Wenn z.B. jemand sagt, er habe viel Geld für ein Produkt ausgegeben, so bezieht er sich auf eine Norm, also einen üblichen Preis. Diese Norm muss nicht von jedem geteilt werden. Der Hersteller des Produkts mag da ganz anderer Meinung sein. Komplementarität: Die Annahme, dass ein Prädikat eines komplementären Wortpaares auf etwas zutrifft, impliziert, dass das andere Prädikat des Wortpaares zugleich nicht darauf zutrifft. Beispiele für komplementäre Wortpaare sind LEBENDIG-TOT, MÄNNLICH-WEIBLICH, LEDIG-VERHEIRATET. Komplementäre Wortpaare bezeichnen also binäre Merkmalspaare im Sinne eines Entweder-Oder. Konversion: Konversionspaare bezeichnen meist gegensätzliche Perspektiven auf eine Handlung oder ein Ereignis. Beispiele hierfür sind kaufen – verkaufen oder geben – nehmen. Bei diesen Beispielen sind sowohl syntaktische Transformationen als auch ein Wechsel der thematischen Rollen involviert. Zu einem vollständigen Bild der lexikalisch-semantischen Relationen gehören auch die syntagmatischen Relationen. Wir werden diese ausführlicher in Kaptitel 11 behandeln.

28

Als lexikalische Einheit (‚lexical unit‘) bezeichnen wir, Cruse (1986) folgend, ein sprachliches Zeichen, das genau aus einer Form und einer Bedeutung besteht.

5 Polysemie 5.1 Eine Vorbemerkung Lexikalische Zeichen können in verschiedenen Kontexten mit verschiedenen Bedeutungen verwendet werden. Wenn diese Bedeutungen systematisch unterscheidbar sind, dann wird sich dies in der lexikalischen Beschreibung dieser sprachlichen Zeichen niederschlagen. Ein lexikalisches Zeichen kann dabei, wie wir noch sehen werden, als Homonym oder als Polysem behandelt werden. Eine Alternative zur einfachen Auflistung von Lesarten im Wörterbuch ist es, lexikalische Regeln zu formulieren, die reguläre Bedeutungsverschiebungen oder Bedeutungserweiterungen generisch formulieren und dementsprechend von jedem passenden Wörterbucheintrag referenziert werden können. Da solche Regeln nicht gut für menschliche Benutzer von Printwörterbüchern geeignet sind, bietet sich diese Vorgehensweise vor allem für elektronischen Wörterbücher an. Wir werden in Kapitel 7 ausführlicher auf lexikalische Regeln und die Konsequenzen ihrer Anwendung auf das Wörterbuchdesign eingehen.

5.2 Einleitung Das Phänomen der Polysemie lexikalischer Zeichen ist von zentraler Bedeutung für die Organisation des Lexikons. Mit Cruse (vgl. Cruse (1986), S. 76) definieren wir LEXIKALISCHE E INHEIT als ein Paar aus einer lexikalischen Form und einer Wortbedeutung. Ein polysemes sprachliches Zeichen umfasst damit mehrere formgleiche lexikalische Einheiten. Das sprachliche Zeichen Tafel kann z.B. eine von drei lexikalischen Zeichen referenzieren – das Schreibgerät, den festlichen Tisch oder die Form, in der Schokolade verkauft wird. Das Gegenstück zur Polysemie auf der Ebene des Sprachgebrauchs ist die A MBIGUITÄT. Ein ambiges Textwort kann auf mehrere lexikalische Einheiten abgebildet werden. Wenn wir dem Wort Tafel im Text begegnen, ist dieses im Sinne der o.g. lexikalischen Zeichen ambig. Die Auswahl genau einer lexikalischen Einheit als Gegenstück eines ambigen Textworts nennt man D ISAMBIGUIERUNG. Sprachtechnologische Anwendungen, deren Erfolg von der Disambiguierung von Textwörtern abhängt, benötigen kontextuelle Hinweise, um die passende lexikalische Einheit zu ermitteln. So sind z.B. die Kontextwörter Schule oder schreiben geeignet, um das Textwort Tafel als ‚Schreibfläche‘ zu disambiguieren. Polysemie ist ein Begriff, der theoretisch schwer zu fassen ist. Er bezeichnet die Beziehung zwischen einer lexikalischen Form und mindestens zwei

Lexikalische Semantik

45

lexikalischen Bedeutungen. Lexikalische Bedeutungen sind selbst theoretische Konstrukte. Sie sind nicht beobachtbar und unterliegen damit immer der Willkür verschiedener Interpretationen, mit Folgen für die lexikographische Praxis und ihre Produkte. Die zentralen Fragen in Bezug auf die Polysemie sind daher: Wie viele Bedeutungen hat eine lexikalische Form? Welche Bedeutung eines Wortes wird in einem bestimmten Kontext aktiviert? Es gibt zwei Wege, das Polysemieproblem anzugehen und Antworten auf diese beiden Fragen zu finden: 1. Der erste Weg besteht in einer deduktiven Grundlegung des Begriffs der P OLYSEMIE, also seiner Herleitung aus grundlegenden linguistischen Prinzipien. Dies sollte zu einer intensionalen Definition29 des Begriffs führen. Hieraus wiederum sollten sich operationale Kriterien ableiten lassen, mit deren Hilfe es sich konsistent entscheiden lässt, ob ein sprachlichen Zeichen polysem ist, und, wenn ja, wie viele Bedeutungen es hat. 2. Der zweite Weg führt über die lexikographische Praxis. Man kann versuchen, aus bekannten lexikographischen Prozessen den idealen lexikographischen Umgang mit Polysemie zu rekonstruieren. Man kann mit einem bestimmten, möglichst maßgeblichen Wörterbuch beginnen und die lexikographischen Entscheidungen, die im Einzelfall zu einer Aufteilung in verschiedene Lesarten führten, nachvollziehen. Wir werden hier beide Wege einschlagen. Zunächst werden wir eine vorläufige Definition des Begriffs Polysemie entwickeln. Diese muss möglicherweise verändert werden, wenn wir beide Arten des Umgangs mit Polysemie näher betrachtet haben.

5.3 Eine vorläufige Definition Beginnen wir mit zwei Definitionen aus der Literatur zu diesem Thema: Polysemie (Mehrdeutigkeit) liegt vor, wenn ein Ausdruck zwei oder mehr Bedeutungen aufweist, die allesamt etwas gemeinsam haben und sich meist aus einer Grundbedeutung ableiten lassen. (Bußmann (1990), Artikel Polysemie) A word with (at least) two entirely different meanings yet sharing a lexical form is said to be homonymous [...] while a word with several related senses is said to be polysemous [...] (Ein Wort mit mindestens zwei komplett verschiedenen Bedeutungen, die dieselbe lexikalische 29

Die Intension eines Begriffs ist dessen logischer Inhalt, während die Extension der Umfang eines Begriffes mit Bezug auf die von diesem Begriff bezeichneten Objekte ist.

46

Lexikalische Semantik Form haben, wird homonym genannt. Ein Wort mit mehreren verbundenen Bedeutungen ist polysem.) (vgl. Lyons (1977))

Ein charakterisierendes Merkmal der Polysemie, das in beiden Definitionen genannt wird, erweist sich allerdings bei näherem Hinsehen als unzureichend. Ein Wort kann mehrere Bedeutungen haben und dennoch nicht polysem sein. Betrachten wir die Ambiguität im folgenden Satz: Ich mag diese Jacke. In Sätzen wie diesen ist die Bedeutung von Jacke unterspezifiziert. Mit diesem Satz kann man auf den Typ referieren (die Jacke mit dem Fellkragen) oder auf ein bestimmtes Exemplar (die Jacke da hinten rechts, sie riecht ganz besonders). Hier liegt eine reguläre Unterscheidung in Typ und Exemplar vor. Normalerweise wird man diese regelmäßige und transparente Bedeutungsvarianz nicht als zwei verschiedene Bedeutungen eines sprachlichen Zeichens betrachten. Es empfiehlt sich, hier von durch den Kontext evozierten Aspekten der Bedeutung zu sprechen. In gleicher, unterspezifizierter Weise, kann der Ausruf Löwe! auf ein bestimmtes Tier, den Geruch eines Löwen, die Spur eines Löwen usw. referieren30 . [P]olysemy is a concept at a crossroads which must be understood in terms of its relation to homonymy, alternations, collocations and analogy [...] (Kilgarriff (1992), S. 8) Kilgarriffs Charakterisierung der Polysemie wird der Komplexität des Phänomens gerechter. Er stellt eine Beziehung her zwischen der Polysemie im Zentrum und Homonymie auf der einen Seite, regulärer Bedeutungsalternanz auf der anderen Seite. Polysemie steht so in der Mitte eines Kontinuums. Der Begriff ist in dem Sinne unscharf, als es keine klaren, unabhängigen Grenzen zwischen Polysemie und Homonymie einerseits und Polysemie und Bedeutungsalternanz andererseits gibt. In der praktischen lexikographischen Arbeit müssen solche Grenzen natürlich gezogen werden, aber dies sind praktische Erwägungen und können sich nicht auf klare linguistische Kriterien berufen. Nachdem wir nun drei Definitionen aus der Literatur analysiert haben, wollen wir nun eine eigene vorläufige Definition des Begriffs geben. Definition 1. Ein polysemes Wort verbindet eine lexikalische Form mit mindestens zwei Bedeutungen. Diese Bedeutungen sind in mindestens einem Aspekt miteinander verbunden, z.B. bei der lexikalischen Form ‚Birne‘als Frucht und als Leuchtkörper über das Element der Form (im Gegensatz zur Homonymie). Für jeweils zwei Bedeutungen dieses Wortes gilt, dass die eine Bedeutung nicht aus der anderen Bedeutung mithilfe allgemeiner Regeln hergeleitet werden kann (im Gegensatz zur Bedeutungsalternanz). 30

Quine verwendet mit ‚Gavagai‘ ein ähnliches Beispiel, vgl. Quine (1960), Kapitel 1, unser Beispiel orientiert sich daran.

Lexikalische Semantik

47

Definition 2. Eine Bedeutung eines Wortes repräsentiert einen Verwendungstyp. Der Verwendungstyp eines Wortes wird aus hinreichend ähnlichen Verwendungen eines Wortes abstrahiert. Das Wort ist in diesen Verwendungen frei mit anderen Wörtern kombiniert, bildet mit diesen also keine feste Wendung. Mit diesen beiden Definitionen wird Polysemie aus der Wortbedeutung und Wortbedeutung aus den Verwendungsweisen eines Wortes hergeleitet. Die Verwendungsweisen eines Wortes lassen sich z.B. in einem Textkorpus beobachten und analysieren. Der Begriff der Polysemie wird auf diese Weise empirisch fundiert. Es muss sich allerdings in der Praxis erweisen, ob die Kriterien für die Abgrenzung zwischen Polysemie und Homonymie einerseits und zwischen Polysemie und Bedeutungsalternanz anderseits operationalisierbar sind, ob sie also in den meisten Fällen zu konsistenten und nachvollziehbaren Entscheidungen führen.

5.4 Polysemie und Homonymie Die Unterscheidung zwischen Polysemie und Homonymie betrifft u.a. das praktische Problem, wie viele Einträge für eine lexikalische Form (ein Lemma) in einem Wörterbuch angesetzt werden sollten. Wir haben bereits das von Lyons aufgestellte Kriterium für diese Unterscheidung genannt: Wenn zwei Bedeutungen in irgendeiner Weise miteinander verbunden sind, dann sind dies zwei Bedeutungen eines polysemen lexikalischen Zeichens. Wenn die Bedeutungen nicht miteinander verbunden sind, dann handelt es sich um zwei unabhängige sprachliche Zeichen mit jeweils einer dieser beiden Bedeutungen. In der Praxis wird die Unterscheidung zwischen Polysemie und Homonymie auf Grund der folgenden Kriterien getroffen: • Formales Kriterium: Wenn zwei lexikalische Zeichen zwar die gleiche Grundform haben, sich aber in der Aussprache unterscheiden oder in ihren Vollformen, dann sind diese beiden sprachlichen Zeichen homonym. Ein Beispiel für die verschiedene Aussprache bei gleicher Form ist modern, das einmal auf der ersten Silbe betont wird und einmal auf der zweiten Silbe. Ein Beispiel für die gleiche Grundform und verschiedene Vollformen ist hängen, das in einem Fall die Vollformen hing, gehangen etc. hat, im anderen Fall die Vollformen hängte, gehängt. Diese formalen Unterschiede korrelieren meist mit weiteren morphologischen, syntaktischen oder semantischen Unterschieden. Im ersten Beispiel gehören die beiden lexikalischen Zeichen unterschiedlichen Wortklassen an, im zweiten Fall bestehen Unterschiede im Valenzrahmen der beiden Verben.

48

Lexikalische Semantik

• Semantische und logische Kriterien: Wenn kein Zusammenhang zwischen den Bedeutungen zweier formgleicher sprachlicher Zeichen hergestellt werden kann, dann werden diese als Homonyme behandelt. Dies ist z.B. bei Schloss (‚Art von Gebäude‘ und ‚Schließvorrichtung‘) der Fall. • Etymologische Kriterien: wenn zwei formgleiche lexikalische Zeichen sich sprachgeschichtlich aus unterschiedlichen sprachlichen Zeichen entwickelt haben und die Form beider Zeichen sich erst im Laufe der Geschichte einander angeglichen haben, dann werden diese beiden Zeichen als Homonyme behandelt. Dies ist z.B. bei Bank der Fall. Die Perspektive auf diese Unterscheidung ist in den ersten beiden Fällen synchron, geht also von der gegenwärtigen Sprachverwendung aus. Im letzten Fall ist sie diachron, setzt also Kenntnisse der Sprachgeschichte voraus. Die Perspektive auf die gegenwärtigen Sprachverhältnisse scheint uns die bessere zu sein, da man vom durchschnittlichen Sprachbenutzer keine Kenntnisse der sprachgeschichtlichen Verhältnisse erwarten kann. Die Unterscheidung nach etymologischen Kriterien ist damit eine Übung für Spezialisten und dürfte z.B. bei den meisten Benutzern von Wörterbüchern keine Rolle spielen. Die Diversität der Kriterien erschwert die Ermittlung von operationalen Verfahren, mit denen Homonyme von Polysemen so unterschieden werden können, dass diese Unterscheidung unumstritten und für jeden nachvollziehbar ist. Lyons empfiehlt daher an anderer Stelle, diese Entscheidung einfach zu umgehen. Er schlägt zwei alternative Vorgehensweisen vor: • Homonyme maximieren: Für jede Bedeutung einer lexikalischen Form wird ein neuer Wörterbucheintrag angesetzt. In einem Printwörterbuch würde dies zu einer intolerablen Vervielfachung von Einträgen führen. Auch die Suche nach der gerade benötigten Bedeutung würde wahrscheinlich kompliziert werden. In einem Wörterbuch für den Computer, also für sprachtechnologische Pogramme, könnten weitere Mechanismen wie die Vererbung von Eigenschaften diese Probleme lösen. Auch die Suche in diesen Strukturen stellt kein Problem dar. Es bleibt allerdings ein Vorbehalt gegenüber dieser Lösung: Beziehungen zwischen Bedeutungen sprachlicher Zeichen, die miteinander verbunden sind, lassen sich in einer solchen Struktur nur mit zusätzlichen Mitteln ausdrücken. • Polyseme maximieren: Diese Strategie geht davon aus, dass keine zwei lexikalischen Einheiten komplett verschieden sind, wenn sie sich syntaktisch nicht unterscheiden und die Menge der Vollformen beider sprachlichen Zeichen gleich ist. Eine Konsequenz dieser Lösung könnte sein, dass bei lexikalischen Formen mit sehr vielen Bedeutungen (z.B. im Deutschen halten) die Wörterbuchartikel leicht unübersichtlich werden.

Lexikalische Semantik

49

Welche Strategie man wählt, das hängt letztlich von weiteren Entscheidungen ab wie der Zielgruppe der lexikalischen Ressource, dem Medium, in dem diese erstellt wird, der lexikographischen Tradition, etc.

5.5 Polysemie und Bedeutungsalternanz Der Begriff der Bedeutungsalternanz oder regulären Polysemie ist im Kontext der generativen Grammatik bzw. generativen Semantik von großer Bedeutung. Es passt gut in das Konzept des generativen Lexikons, das wir bereits in Abschnitt 3.3 dieses Kapitels eingeführt haben. Reguläre Polysemie ist das Ergebnis von Prozessen der Bedeutungserweiterung oder Bedeutungsalternanz, die durch die Verwendung eines sprachlichen Zeichens in verschiedenen, systematisch zusammenhängenden Kontexten ausgelöst werden. Dies ist ein produktiver Prozess, solange ein lexikalisches Zeichen in unterschiedlichen Kontexten verwendet wird. Im Rahmen des generativen Lexikons wird reguläre Polysemie durch lexikalische Regeln und Beschränkungen der Anwendung dieser lexikalischen Regeln modelliert. Diese Art der Modellierung trägt der Tatsache Rechung, dass reguläre Polysemie ein produktiver Prozess ist und alle zukünftigen Bedeutungserweiterungen und Bedeutungsalternanzen sich nicht in einer statischen Liste von lexikalischen Einheiten erfassen lassen. Sehen wir uns z.B. die Alternanz von ‚verzehrbarer Substanz‘ – ‚Portion dieser Substanz‘an: (35)

Mary drank two glasses of whiskey.

(36)

Mary drank two whiskeys.

Diese Bedeutungserweiterung (von Substanz um Portion dieser Substanz) wird durch einen Wechsel in der Klasse des Nomens begleitet. Im ersten Beispiel gehört das Nomen der Klasse der unzählbaren Nomen an, im zweiten Beispiel der Klasse der zählbaren Nomen. Diese Bedeutungserweiterung kann auf viele, wenn nicht alle trinkbaren Flüssigkeiten und essbaren Substanzen angewendet werden. Pustejovsky (1991) nennt eine Reihe logischer Mehrdeutigkeiten, die auf die komplexe Struktur der beteiligten sprachlichen Zeichen zurückgeführt werden können. Sie sind das Ergebnis der Wechselwirkung von sprachlichem Zeichen und Kontext, nicht das Ergebnis eines Bedeutungswechsels dieses sprachlichen Zeichens. Im Folgenden geben wir die Liste wieder, die sich in dem erwähnten Aufsatz findet (Pustejovsky (1991), S. 432), und illustrieren jede dieser Ambiguitäten mit einem Beispiel.

50

Lexikalische Semantik

Alternanz zwischen zählbarem Nomen und unzählbarem Nomen: (37)

Wir haben gestern einen Hasen gesehen.

(38)

Wir haben gestern Hase mit Rotkohl gegessen.

Alternanz zwischen Behältnis und Inhalt: (39)

Dies ist ein sehr großes Glas.

(40)

Wir haben dann noch zwei Gläser getrunken.

Alternanz zwischen Figur und Hintergrund: (41)

Wir haben die Fenster weiß gestrichen.

(42)

Der Dieb kam durchs Fenster.

Alternanz zwischen Produzenten und Produkt: (43)

VW hat einen drastischen Stellenabbau angekündigt.

(44)

Ich fahre meinen VW jetzt seit über zehn Jahren und bin zufrieden.

Alternanz zwischen Pflanze, Holz und Frucht: (45)

Die Kirsche da hinten will ich dieses Jahr fällen lassen.

(46)

Ich habe mich bei meinem neuen Schlafzimmer diesmal für Kirsche entschieden.

(47)

Diese Kirsche war sehr süß und saftig. Sind alle so?

Alternanz zwischen Prozess und Ergebnis: (48)

Der Neubau (der Brücke) wird ein Vermögen kosten.

(49)

Der Neubau war nicht zur geplanten Zeit bezugsfertig.

Alternanz zwischen Zustand und Gegenstand: (50)

Gehacktes / Die Illustrierte / Das Geblümte (Kleid)

Alternanz zwischen Ort und Bewohnern: (51)

Ich habe letztes Jahr Warschau besucht.

(52)

Warschau hat diesmal die Bürgerplattform gewählt.

Es gibt noch weitere Bedeutungsalternanzen, die auf Gruppen von lexikalischen Zeichen zutreffen31 . 31

Vgl. Buitelaar (1998).

Lexikalische Semantik

51

Einige dieser Bedeutungsalternanzen sind völlig transparent und treffen auf eine offene Liste von lexikalischen Zeichen zu, z.B. die Alternanz zwischen Ort und Bevölkerung. Es ist deshalb zumindest bei elektronischen Wörterbüchern zu empfehlen diese Alternanz als lexikalische Regel zu formulieren. Menschliche Benutzer eines Printwörterbuchs werden wahrscheinlich sogar ohne diese Information auskommen, da für sie diese Alternanz selbstverständlich ist. Lexikalische Regeln dieser Art werden von Briscoe und Copestake aufgestellt32 . Sie nennen das Phänomen KONSTRUKTIVE P OLYSEMIE (‚constructional polysemy‘). Desweiteren führen sie auch Beschränkungen für diese Regeln ein. Diesen Beschränkungsmechanismus nennen sie B LOCKIERUNG (‚blocking‘). Es gibt einige Tests, mit deren Hilfe man feststellen kann, ob ein lexikalisches Zeichen wirklich polysem bzw. ambig ist (Fall 1) oder ob eine Bedeutung des Zeichens eine reguläre Erweiterung bzw. Alternanz einer anderen Bedeutung ist (Fall 2). Einige Konstruktionen führen zur Anomalie in Fall 1, aber nicht, wenn Fall 2 vorliegt: • Z EUGMA ist eine Koordination, in welcher ein Prädikat mit syntaktisch oder semantisch inkompatiblen Argumenten verbunden wird. Ein Zeugma entsteht nur bei echt polysemen Argumenten, vgl. (53) vs. (54). • Überkreuz-Lesarten (‚cross-readings‘). Dieser Test lässt sich auf Koordinations-Strukturen anwenden. Überkreuzlesarten sind nicht verfügbar bei Beispiel (55), aber bei Beispiel (56). (53)

*I tried to take the plane to Chicago, but it was too heavy. (Ich wollte das Flugzeug nach Chicago nehmen, aber es war zu schwer.)

(54)

That book has thousands of pages and is quite unreadable. (Das Buch hatte mehrere Tausend Seiten und ist nur schwer zu lesen.)

(55)

Susi und Gabi haben Ponys.

(56)

Susi und Gabi hoben ihre Hand.

Eine Interpretation von Beispiel (55), nach der Susi ein kleines Pferd und Gabi eine bestimmte Frisur haben, ist nicht möglich. Es ist allerdings möglich, dass Susi ihre linke Hand und Gabi ihre rechte Hand hoben. Dieses Testergebnis bestätigt, dass Pony ‚Pferd‘ und Pony ‚Frisur‘ zwei verschiedene Bedeutungen dieses lexikalischen Zeichens sind, wohingegen rechte Hand und linke Hand unter das lexikalische Zeichen ‚Hand‘ subsumiert werden kön-

32

Vgl. Briscoe und Copestake (1991).

52

Lexikalische Semantik

nen, das lexikalische Zeichen ist unterspezifiziert hinsichtlich der Seitigkeit der Hand33 . Kilgarriff (1997) kritisiert diese Tests mit den folgenden Argumenten: • In vielen Fällen ist es schwierig, Testsätze zu konstruieren. Dies ist gänzlich unmöglich bei Koordinationsstrukturen, wenn zwei Lesarten eines lexikalischen Zeichens mit Unterschieden in der syntaktischen Distribution einhergehen. • Die Sätze müssen von Muttersprachlern auf ihre Akzeptanz hin bewertet werden. Dabei ist es allerdings schwierig, die linguistischen Unterschiede von den nichtlinguistischen Unterschieden zwischen den Testsätzen zu trennen. Beides aber beeinflusst die Urteile der Testpersonen. Es muss konkreten Untersuchungen überlassen bleiben, die Frage zu klären, ob sich linguistische Aspekte der Testsätze von den pragmatischen Aspekten („Könnte ich unter bestimmten Umständen diesen Satz nicht doch verwenden bzw. verstehen und akzeptieren?“) trennen lassen. Lascarides und Copestake haben dies jedenfalls versucht34 . Wir müssen zugeben, dass wir bei unserem Versuch, Polysemie intensional zu definieren, nicht besonders weit gekommen sind. Wir müssen letztendlich Kilgarriffs skeptischer Einschätzung zustimmen, dass Polysemie kein Begriff ist, der sich innerhalb einer semantischen Theorie präzise bestimmen lässt. Im nächsten Abschnitt werden wir beschreiben, wie Lexikographen in der praktischen Wörterbucharbeit mit dem Problem der Polysemie und der Bedeutungsunterscheidung umgehen. Wir werden zeigen, wie die Lexikographie den Begriff der Wortbedeutung mit dem Begriff des Verwendungstyps verknüpft. Wir sind bereits früher in diesem Kapitel darauf eingegangen.

5.6 Die Sichtweise der Lexikographie Der lexikographische Prozess Wie gehen Lexikographen das Problem der Bedeutungsunterscheidung an? Zunächst gibt es eine gewisse Tradition in der Lexikographie, sich bei der Erstellung neuer Wörterbücher an existierenden Wörterbüchern und den dort vorgenommenen Bedeutungsunterscheidungen zu orientieren. Damit ist das Problem auf eine sehr einfache Weise gelöst: man übernimmt die Bedeutungsunterscheidungen, die bereits etabliert sind. Wir möchten diese Praxis aber nicht als Modell für unsere Betrachtungen des lexikographischen Prozesses verwenden. 33

34

Die Beispiele (53), (54) und (55) sind Lascarides und Copestake (1996) entnommen bzw. nachgebildet. Beispiel (56) ist einem Beispiel von Kilgarriff (1997) nachgebildet. Vgl. Lascarides und Copestake (1996).

Lexikalische Semantik

53

Unser idealer Lexikograph ist wirklich an einer linguistisch begründeten und am Sprachgebrauch orientierten Bedeutungsunterscheidung interessiert. Er hat für diese Aufgabe ein großes Textkorpus zur Verfügung, das den aktuellen Sprachgebrauch in ausgewogener Weise dokumentiert. Aus diesem Korpus entnimmt er Belege, die ihm helfen, begründete Entscheidungen zu treffen. Für den Rest dieses Kapitels wollen wir außerdem, vielleicht unrealistischerweise, annehmen, dass weder zeitliche noch sonstige Restriktionen die lexikographischen Entscheidungen beeinflussen. Unser Lexikograph sieht sich einer endlichen Menge von Belegen für die Verwendung eines lexikalischen Zeichens gegenüber. Er wird eine Liste von Belegen in Form einer Konkordanz für die Vorkommen dieses lexikalischen Zeichens bekommen. Zunächst wird er, eventuell mit Unterstützung der von ihm verwendeten Software, die Belege so gruppieren, dass jede Gruppe einen bestimmten Verwendungstyp repräsentiert. Kilgarriff beschreibt diesen Teil der lexikographischen Arbeit wie folgt. Für jedes Wort muss der Lexikograph 1. eine Konkordanz der Verwendungsinstanzen abrufen; 2. die Verwendungsinstanzen in Cluster aufteilen, so dass nach Möglichkeit die Mitglieder jedes Clusters sehr viel miteinander und möglichst wenig mit den Mitgliedern des anderen Clusters gemeinsam haben; 3. für jedes Cluster die gemeinsamen Merkmale herausarbeiten. Dabei können die Cluster durchaus noch einmal neu organisiert werden; 4. Schlüsse auf die Bedeutungen bzw. Lesarten des lexikalischen Zeichens ziehen und diese Schlüsse in die spezifische Sprache der lexikographischen Bedeutungsbeschreibungen übertragen. Die Entscheidungen hinsichtlich der Unterteilung eines lexikalischen Zeichens in Lesarten sind meist stark subjektiv. Dies könnte man an Hunderten, wenn nicht gar Tausenden von Beispielen belegen, bei denen sich die Unterteilung in Lesarten von Wörterbuch zu Wörterbuch unterscheidet. Kilgarriff stellt fest, dass der dritte der oben beschriebenen Schritte ein höchst fehleranfälliger Versuch ist, intuitive Kriterien bei der Gruppenbildung nachträglich zu explizieren (vgl. Kilgarriff (1997)). Ein nicht zu vermeidendes Dilemma der lexikographischen Arbeit ist es, dass abstrakte Bedeutungen aus einer endlichen und in vielen Fällen sehr kleinen Menge von Belegen gewonnen werden müssen. Das Sprachsystem, das zumindest in einem Aspekt, dem lexikalischen, beschrieben werden soll, ist aber unendlich und unterliegt permanenten Veränderungen. Letztendlich heißt dies, dass ein gedrucktes Wörterbuch, wenn es erscheint, in einigen Aspekten schon wieder veraltet ist.

54

Lexikalische Semantik

Die Trenner und die Zusammenfasser Hinsichtlich der Gruppierung von Belegen zu Verwendungsmustern kann man zwei Typen von Lexikographen unterscheiden: die Zusammenfasser (englisch: ‚lumper‘) und die Trenner (englisch: ‚splitter‘). Die Zusammenfasser sind bemüht, so wenige Gruppen wie möglich aus den Daten zu gewinnen, um die Zahl der Lesarten für ein lexikalisches Zeichen möglichst gering zu halten. Sie neigen dazu, feinere Bedeutungsunterscheidungen zu ignorieren. Die Trenner hingegen berücksichtigen so viele Unterschiede in den Verwendungsweisen wie möglich. Praktische Erwägungen und Festlegungen in konkreten Wörterbuchprojekten legen der lexikographischen Arbeit beider Gruppen jedoch Grenzen auf. Zumeist kommen diese Festlegungen den Zusammenfassern entgegen. SFIP – eine Faustregel Kilgarriff entwickelt eine Faustregel für die praktische lexikographische Arbeit der Bedeutungsunterscheidung. Ein Verwendungsmuster, das zu einer Lesart abstrahiert wird, sollte hinreichend häufig belegt sein (‚sufficiently frequent‘ – SF) und nicht hinreichend erschließbar aus anderen Verwendungsweisen (‚insufficiently predictable‘ – IP), vgl. Kilgarriff (1997): [...] if the instance exemplifies a pattern [of usage] which is sufficiently frequent, and is insufficiently predictable from other meanings or uses of the word, then the pattern qualifies for treatment as a dictionary sense [...] (Kilgarriff (1997), S. 12) Erstens sollte also ein Cluster groß genug sein und nicht nur ein oder zwei Korpusbelege enthalten. Dies ist natürlich schwierig zu realisieren für Wörter, die insgesamt nur sehr selten vorkommen. Allerdings werden Wörter, die nur sehr selten vorkommen, meistens nur eine Bedeutung haben und das Problem der Bedeutungsunterscheidung stellt sich gar nicht. Zweitens sollten die Bedeutungen, die sich aus den Verwendungsmustern ableiten lassen, nicht aus einer Kernbedeutung des Wortes regulär ableitbar sein. In Kilgarriffs Worten: A usage type is [...] predictable if language learners or users familiar only with a core sense for the word in question could, on hearing the word in a context demanding some other reading, correctly interpret it and draw appropriate inferences. (Kilgarriff (1992), S. 52) Wir werden, um das soeben Gesagte zu veranschaulichen, aus der Arbeit von Kilgarriff (vgl. 1997) einige Beispiele zum Stichwort handbag zitieren:

Lexikalische Semantik

55

(57)

She bought a new handbag (sie kaufte eine neue Handtasche)35 .

(58)

[...] determined women armed with heavy handbags (entschlossene Frauen, mit schweren Handtaschen bewaffnet).

(59)

[...] tension mounted between trendy regulars [...] and the Hitman’s handbag brigade (die Spannung zwischen den Stammgästen und Hitman’s Handtaschenbrigade wuchs an).

Diese Belege sollen drei Verwendungsmuster des Wortes repräsentieren: • ein Accessoire der weiblichen Garderobe (häufige Verwendung); • eine Waffe (ebenfalls häufig, aber als metaphorische Verwendung vorhersagbar); • Utensil eines weiblichen oder eher noch homosexuellen Discobesuchers (selten verwendet, nicht vorhersagbar). Die durch das Korpus belegte häufige Verwendung von handbag als Waffe würde diese Lesart für die Aufnahme in ein Wörterbuch qualifizieren. Diese Bedeutung ist allerdings aus der Kernbedeutung herleitbar, da jeder schwere, bewegliche Gegenstand auch als Waffe verwendet werden kann. Auf diese Lesart kann also verzichtet werden, vor allem wenn Platzgründe gegen eine Aufnahme sprechen. Die Lesart als Waffe kann als reguläre Bedeutungsalternanz charakterisiert werden. Dafür spricht, dass das folgende Beispiel kein Zeugma ist: (60)

I used my knife and Mary used her handbag, and so we got rid of the gang (ich benutzte das Messer und Marie ihre Handtasche, und so schlugen wir die Bande in die Flucht).

Die sehr spezielle Lesart, die in Beispiel (59) illustriert wird, ist zu selten, um als Lesartenkandidat für ein allgemeinsprachliches Wörterbuch in Frage zu kommen. Ein Wörterbuch einer bestimmten Gruppensprache hingegen mag es aufführen. Was wir aus den Einblicken in die lexikographische Praxis bisher lernen konnten: • Es gibt kein objektives Kriterium für eine Bedeutungsunterscheidung und die Ableitung von Bedeutungen aus Verwendungsmustern. Bereits die Zusammenfassung zu Verwendungsmustern ist abhängig von den Korpusdaten, die dem Lexikographen zur Verfügung stehen. Die einzelnen Entscheidungen sind deshalb heuristisch und von Faustregeln geleitet. • Der individuelle Stil und die Vorlieben der Lexikographen führen zu zwei Arbeitsweisen: dem Trennen und dem Zusammenfassen. Bedeutungsbe35

Dies ist ein erfundenes Beispiel.

56

Lexikalische Semantik schreibungen können deshalb auch als Post-hoc-Rechtfertigungen dieser Strategien gelesen werden.

Das bisher gezeichnete Bild des lexikographischen Prozesses veranlasst Kilgarriff denn auch zu seiner provokanten Einschätzung des Wertes von Wörterbüchern und der dort kodierten Informationen für sprachtechnologische Anwendungen und für die Aufgabe der automatischen Bedeutungsbestimmung von Textwörtern im Besonderen: The implication for WSD [word sense disambiguation] is that word senses are only ever defined relative to a set of interests. The set of senses defined by a dictionary may or may not match the set that is relevant for an NLP [Natural Language Processing] application [...] One leading lexicographer doesn’t believe in word senses. I don’t believe in word senses, either. (Kilgarriff (1997), S. 18)

5.7 Unterspezifizierung Das Konzept der Polysemie wurde auch im Rahmen der Zwei-EbenenSemantik behandelt (vgl. Bierwisch (1983), Wunderlich (1997)). Der Ansatz, mit dem die Polysemie im Rahmen dieser Theorie beschrieben wird, ist die sog. U NTERSPEZIFIZIERUNG. Die Vertreter der Zwei-Ebenen-Semantik stellen fest, dass die semantische Repräsentation von lexikalischen Einheiten in verschiedener Weise unterspezifiziert sein kann. Wir werden den theoretischen Rahmen der Zwei-Ebenen-Semantik in Kapitel 4 beschreiben. Die zwei Ebenen der Wortbedeutung, die in dieser Theorie getrennt werden und ihr ihren Namen gaben, sind die Logische Form eines sprachlichen Ausdrucks (LF) und die konzeptuelle Form (CF). Das Konzept der Unterspezifizierung ist die theoriespezifische Antwort auf das Phänomen der regulären Polysemie. Regulär polyseme lexikalische Zeichen werden interpretiert, indem Regeln auf eine unterspezifizierte Bedeutungsrepräsentation angewendet werden. Mithilfe der Regeln werden diese Zeichen in einer für die Interpretation des Ausdrucks ausreichenden Weise spezifiziert. Diese Regeln gehören der konzeptuellen Ebene an. Auch der Kontext eines Textworts im sprachlichen Ausdruck und der außerlinguistische Kontext der Äußerung werden in Betracht gezogen. Als Beispiel wollen wir die in verschiedenen Beziehungen zueinander stehenden Bedeutungen des Wortes Universität in den folgenden Sätzen betrachten. (61)

An diesem Freitag morgen verließ Bill die Universität und nahm ein Taxi. (Universität → Gebäude)

Lexikalische Semantik

57

(62)

Zwei Jahre lang lehrte Bill an der Universität Osnabrück. (Universität → Institution)

(63)

Die Universität erstreckt sich mittlerweile über das gesamte Gelände hinter dem Bahnhof. (Universität → Campus)

(64)

Die Universität ist eine typisch europäische Institution, die im Hochmittelalter entstand. (Universität → Bildungsprinzip)

(65)

Die Universität macht übermorgen einen Betriebsausflug. (Universität → Gesamtheit der Beschäftigten der Institution)

Die Zusammenhänge zwischen den Bedeutungen des Wortes Universität in diesen Beispielen werden von der Zwei-Ebenen-Semantik als konzeptuelle Verschiebungen einer radikal unterspezifizierten Grundbedeutung beschrieben. Diese unterspezifizierte Grundbedeutung lässt sich als Bedeutungspostulat etwa in der folgenden Form darstellen: (66)

λ( X ) PURPOSE( X , W ) & PROCESS OF HIGHER EDUCATION( X , W )36 .

Kontextuell erzwungene Lesarten wie Gebäude usw. werden im Prozess der Interpretation einer Äußerung hergeleitet. Die Quelle dieser Herleitung ist das konzeptuelle System des Interpreten, in dem der Prozess der Weiterbildung mit den Gebäuden, in denen dieser Prozess normalerweise stattfindet, verknüpft ist. Das Konzept der Unterspezifikation beeinflusst die Lexikonkonzeption auf folgende Weise: • Die lexikalisch-semantische Beschreibung wird einfach und generell gehalten. • Das Lesarteninventar einer lexikalischen Form wird reduziert37 . • Die Interpretation von Ausdrücken, in denen das lexikalische Zeichen vorkommt, wird überwiegend vom konzeptuellen System des Interpreten gesteuert.

36

37

Umgangssprachlich: das Bezeichnete hat einen Zweck und dieser Zweck ist auf den Prozess der höheren Bildung bezogen. Insofern kommt dieser Ansatz der lexikographischen Praxis des Zusammenfassens, wie im letzten Abschnitt beschrieben, entgegen.

6 Ambiguität und das Problem der Disambiguierung von Textwörtern Im Bereich der automatischen Interpretation von sprachlichen Ausdrücken, einem zentralen Teil vieler sprachtechnologischer Anwendungen, spielt die korrekte Zuordnung einer Bedeutung zu einem Textwort eine wichtige Rolle. Um einen Ausdruck korrekt und eindeutig zu interpretieren, muss jedem Wort genau eine Bedeutung zugeschrieben werden. Die Disambiguierung von Textwörtern (‚Word Sense Disambiguation‘) ist eine Voraussetzung für den Erfolg vieler sprach- und texttechnologischer Anwendungen, z.B. der MASCHINELLEN Ü BERSETZUNG, der I NFORMATI ONSERSCHLIESSUNG (‚Information Retrieval‘) oder dem automatischen Beantworten von Fragen aus einer Faktenbasis (‚Question Answering‘). Aus diesem Grunde benötigen die meisten sprachtechnologischen Anwendungen lexikalische Ressourcen, sowohl allgemeinsprachliche als auch fachsprachliche. Wortnetze, auf die wir in einem späteren Kapitel ausführlicher eingehen werden, sind eine gute Quelle für Wortbedeutungen im allgemeinsprachlichen Bereich. Auch wenn, wie verschiedene Experimente gezeigt haben, die Lesartenunterscheidung in lexikalischen Ressourcen nicht immer für jede Anwendung optimal ist, scheint es doch besser, eine zu grobe oder zu feine Lesartenunterscheidung zu haben als gar keine. Wir werden im Rest des Kapitels zeigen, wie sprachtechnologische Anwendungen von der Disambiguierung von Textwörtern profitieren können: • Der Disambiguierung von Wortbedeutungen kommt z.B. bei der Informationserschließung eine wichtige Rolle zu. Auf eine Suchanfrage müssen diejenigen Dokumente gefunden werden, die mit dieser Suchanfrage zusammenhängen. Stellt man, wie heute noch üblich, diesen Zusammenhang ausschließlich über die lexikalischen Formen her, die Anfrage und Zieldokument gemeinsam sind, dann beeinflussen Ambiguitäten in der Suchanfrage und in den Zieldokumenten das Suchergebnis negativ. Wenn sowohl die Suchanfrage als auch die Zieldokumente automatisch disambiguiert werden könnten, dann wäre eine präzise Suche nach einem Konzept möglich, z.B. mit dem Suchwort Java nach allen Dokumenten, die etwas über die Insel dieses Namens enthalten. Texte, die sich mit der Programmiersprache oder der Kaffeesorte gleichen Namens befassen, könnten ausgeblendet werden. Ein lexikalisch-semantisches Netz macht weiterhin benachbarte Konzepte und Wörter verfügbar, etwa Insel und Philippinen für unser Beispiel. Die Erweiterung der Suchanfrage um Wörter, die benachbarte Konzepte benennen, kann die Trefferquote (‚Recall‘) der

Lexikalische Semantik

59

Suchanfrage erhöhen. Ein solches System wurde z.B. an der Universität Magdeburg entwickelt38 . • Textklassifikation: Texte werden in ein Raster vorgegebener Kategorien (z.B. Produktanfrage, Preisanfrage, Rechnung, Beschwerde) oder Textsorten (z.B. Nachricht, Kommentar, Analyse) eingeordnet. Systeme für die automatische Einordnung von Texten werden in der Regel mit Texten und deren Kategorien trainiert, um hieraus Einordnungsregeln zu lernen. Ein neuer Text wird diesen Einordungsregeln entsprechend klassifiziert. Ein wichtiger Indikator für die Einordnung sind bestimmte Schlüsselwörter und -begriffe, die in den Texten vorkommen. De Buenaga, Rodriguez, Gomez-Hidalgo und Diaz-Agudo (1997) verwenden neben diesen Schlüsselwörtern auch benachbarte Wörter, die sie aus Wortnetzen wie dem Princeton WordNet extrahieren. • Die semantische Annotation von Korpora erleichtert den automatischen Zugang zur Bedeutungsstruktur von Texten. Dies ist für Anwendungen der künstlichen Intelligenz ebenso hilfreich wie für die medizinische oder technische Dokumentation. Semantisch orientierte lexikalische Ressourcen, die die notwendige Information für die Annotation bereitstellen, sind für diese Aufgabe am besten geeignet. Ziel ist es, nach einer gewissen Trainingsphase die semantische Annotation automatischen Taggern zu überlassen und entweder eine gewisse Fehlerrate in Kauf zu nehmen oder das Ergebnis manuell zu korrigieren. Letzteres ist immer noch kostengünstiger als die Annotation komplett manuell durchzuführen, wenn das Taggingergebnis eine bestimmte Fehlerrate nicht übersteigt. Ein deutsches Korpus wird im SALSA-Projekt an der Universität Saarbrücken semantisch annotiert39 . Die automatische Disambiguierung von Textwörtern lohnt sich allerdings nicht für jede sprachtechnologische Anwendung, wie Kilgarriff feststellt (vgl. Kilgarriff (1997)). Es ist also in jedem einzelnen Fall die Kosten-NutzenRelation abzuwägen, wobei systematische Evaluationen der Qualität und des Effekts von Disambiguierungsverfahren sehr nützlich sind. Seit 1998 werden Qualität und Nutzen von Disambiguierungsverfahren, auch im Verhältnis zur Güte intellektueller Disambiguierung auf den sog. SENSEVAL, neuerdings SEMEVAL, Konferenzen evaluiert40 .

38 39

40

‚Clever Search‘, vgl. Kruse et al. (2005). http://www.coli.uni-saarland.de/projects/salsa/, vgl. Burchardt et al. (2006). Vgl. Kilgarriff und Palmer (2000), SENSEVAL: http://www.senseval.org/, SEMEVAL: http://nlp.cs.swarthmore.edu/semeval/index.shtml.

60

Lexikalische Semantik

7 Weiterführende Literatur Es gibt eine ganze Reihe guter Einführungen in die lexikalische Semantik. Stellvertretend hierfür sei die Einführung von Schwarz und Chur (2007) und von Cruse (1986) erwähnt. Auf die Literatur zum Generativen Lexikon haben wir bereits in Kapitel 2 hingewiesen. Einen guten Überblick über die linguistische Forschung zur Polysemie gibt Gergely Pethö (2001). Für Fortgeschrittene sei außerdem der von Yael Ravin herausgegebene Sammelband Polysemy. Theoretical and computational approaches (2002) empfohlen. Über relationale Ansätze der lexikalischen Semantik informieren Martha Evens (1992) und Lynne Murphy (2003).

8 Aufgaben 1. Die folgenden Beispielverwendungen sollen zu geeigneten Lexikoneinträgen zusammengefasst werden: welche Konzepte gibt es und welche Lesarten? Überlegen Sie geeignete Oberbegriffe oder Umschreibungen für die gruppierten Beispiele! Verb: aufsetzen a) Er setzte einen Kaffee auf. b) Setz doch die Brille auf! c) Bevor ich ins Bett gehe, setz ich noch das Schreiben auf. d) Das setzt ja allem die Krone auf! e) Ich setzte dem alten Mann den Hut auf, bevor er ging. f) Ich muss noch diese Kirschen aufsetzen. g) Ich kann diese Mütze unmöglich aufsetzen. h) Ich setze schon mal die Kartoffeln auf. i) Du musst die Bowlingkugel mit Gefühl aufsetzen. j) Der Pilot setzte sanft auf. k) Nach drei Stunden hatten wir endlich den Vertrag aufgesetzt. l) Setz das Holz auf! (Handwerkerjargon) m) Peter musste die Kegel wieder aufsetzen. n) Lass uns doch noch ein Stockwerk aufsetzen! o) Beim Husten setzt er sich im Bett auf. p) Das Rotwild setzt jedes Jahr neu auf. (Jägersprache) Adjektiv: streng a) Er hat einen strengen Vater. b) Diese strenge Frisur steht dir einfach nicht. c) Aus dem Hausflur kam ihm ein strenger Geruch entgegen. d) In dem strengen Winter kamen viele Soldaten um. e) Die strengen Gesetze lassen kaum Milde zu.

Lexikalische Semantik

61

f) Der Diabetiker musste strenge Diät halten. g) Das musst du nicht so streng nehmen. h) In dieser Saison ist wieder ein strenger Kleidungsstil gefragt. Nomen: Fall a) Der Fall Vera Brühne sorgte jahrzehntelang für Aufsehen. b) Der Schirm öffnete sich im Fall. c) In diesem Fall rate ich Ihnen von einer Unterschrift ab. d) Du bist wirklich ein hoffnungsloser Fall! e) In der Region traten zwei Fälle von Hirnhautentzündung auf. f) Schlimm, wenn man den dritten und vierten Fall nicht unterscheiden kann! g) Der neue Rechtsanwalt übernahm meinen Fall. h) Gebannt beobachtete die Öffentlichkeit den tiefen Fall des einstigen Superstars. i) Peter ist nicht mein Fall. j) Newton erkundete die Bedingungen des freien Falls. 2. Ähnlich wie unser Beispiel Universität in Abschnitt 5.7 kann Kirsche mehrere Bedeutungen haben, die in den folgenden Beispielsätzen aktiviert werden: (67)

Die Kirschen waren krank und mussten gefällt werden.

(68)

Die Kirschen waren verfault und mussten weggeworfen werden.

(69)

Sie ließen sich eine Kommode aus Kirsche anfertigen.

Entwickeln Sie eine minimale, unterspezifizierte Bedeutungsbeschreibung, unter der sich alle drei Lesarten von Kirsche subsumieren lassen. Welcher weitere Aspekt der Bedeutung wird in den drei Belegbeispielen aktiviert? 3. Im Abschnitt 5.5 dieses Kapitels stellen wir Muster regulärer Polysemie vor. Überlegen Sie für jedes Muster ein eigenes Beispiel. Finden Sie einen eigenen, noch nicht genannten Alternationstyp regulärer Polysemie!

4 Lexikalisches und enzyklopädisches Wissen Nach der Lektüre dieses Kapitels werden Sie den Unterschied zwischen lexikalischem und enzyklopädischem Wissen kennen und die Folgen dieser Unterscheidung für die Gestaltung von Wörterbuchartikeln, insbesondere für die Bedeutungsbeschreibung ermessen können. Sie werden zugleich den Unterschied zwischen Sprachwörterbuch einerseits und Sachwörterbuch oder Enzyklopädie andererseits nachvollziehen können und wissen, was Sie in beiden finden bzw. nicht finden können.

1 Einleitung Eine lang anhaltende, gleichwohl immer noch aktuelle Debatte in der Forschung in den Bereichen der Linguistik, Sprachphilosophie, Kognitionswissenschaft, künstlichen Intelligenz etc. betrifft die Abgrenzung zwischen lexikalischem und enzyklopädischem Wissen. Mit lexikalischem Wissen wird hier vor allem auf die semantische Ebene referiert, denn syntaktisches oder morphologisches lexikalisches Wissen von Weltwissen zu unterscheiden ist meist kein Problem. In erster Linie geht es also darum, lexikalische Semantik (Sprachwissen) und pragmatische Semantik (Weltwissen) zu unterscheiden, was voraussetzen würde, dass es einen engeren Bereich der semantischen Analyse gibt, der deutlich individuierbar ist. Dieser engere Bereich des semantischen Wissens könnte zum Beispiel darin bestehen, dass man einen Begriff in das verfügbare Sprachsystem einordnen und entsprechend gebrauchen kann, ohne alle Eigenschaften des bezeichneten Gegenstandes oder Sachverhaltes zu kennen. So kann man sinnvoll auf einen Wiedehopf oder eine Buche referieren, nur mit dem Wissen, dass es sich um einen Vogel bzw. einen Baum handelt. Nicht einmal die unterscheidenden Merkmale zu anderen Vögeln oder Bäumen muss man kennen; aufgrund der Sprachkompetenz weiß man, dass sie keine Amseln und Eiben sind. Die Ebene enzyklopädischen Wissens ist weiter gefasst und umfasst spezifische Eigenschaften zu den Begriffen, die bis in den fachsprachlichen Bereich gehen, z.B. über Aussehen und Herkunft, Verhalten des bezeichneten Objekts. So finden sich Wiedehopf als rackenartiger Vogel und Buche als Kätzchenblütler auch in biologischen Taxonomien, die dem Laien meist un-

Lexikalisches und enzyklopädisches Wissen

63

bekannt sind und deren Verwendung in der Alltagssprache eher kontraproduktiv ist. Enzyklopädisches Wissen beinhaltet alle möglichen Aspekte des Weltwissens, und umfasst auch episodisches Wissen (z.B. das Verhalten des Wiedehopfes, den man einmal im Zoo gesehen hat), prozedurales Wissen (z.B. das Anlegen eines Buchenhains), Wissen über Personen und Fakten etc. und ist deshalb zumindest im Prinzip unerschöpflich. Mit der Lexikon-Enzyklopädie-Unterscheidung werden weitere Gegensatzpaare mit ähnlichen Abgrenzungsproblemen bezüglich ihrer Zuständigkeiten verknüpft: • • • • • •

Semantik vs. Pragmatik; Sprachwissen vs. Weltwissen; definitorisches vs. enzyklopädisches Wissen über Wörter; essenzielle Eigenschaften vs. kontingente Eigenschaften; analytische vs. synthetische Aussagen; lexikalisches Wissen über Wörter vs. nicht-lexikalisches Wissen über Dinge; • Eigennamen vs. definite Beschreibungen1 . Auch wenn man annimmt, dass es diese Unterscheidungen zwischen den o.g. Wissenssphären gibt, so ist die genaue Grenzziehung unklar. Wenn diese Grenzziehung aber unklar ist, dann ist sie vielleicht nicht so operativ für die Semantik, wie man aufgrund der Intensität der Debatte meinen könnte2 .

1 2

Vgl. Allan (1995). Auch auf der Ebene der Pragmatik kann man unterscheiden zwischen einer linguistischen Ausrichtung, die etwa mit Deixis oder Präsuppositionsanalyse bzw. Diskursanalyse beschäftigt ist, und einer extra-linguistischen Ausrichtung, die beliebige akzidentielle Faktoren aus der außersprachlichen Wirklichkeit heranzieht, z.B. Äußerungssituation, Sprecherintention und anderes Situationswissen. In der Lexikographie wird die pragmatische Ebene meist durch U SAGE N OTES oder entsprechende Umschreibungen, die Gebrauchsbedingungen spezifizieren, abgedeckt.

2 Die Lexikon vs. Enzyklopädie-Debatte Wir wollen im Folgenden einen kurzen Überblick über den Stellenwert der Lexikon-Enzyklopädie-Unterscheidung in verschiedenen Theoriezusammenhängen geben.

2.1 Strukturalismus Die strukturalistische Auffassung von der Sprache als System und die strikte Orientierung am objektiv beobachtbaren Zeichen bezieht sich auch auf die Konzeption des Lexikons, für das eine semantische Struktur angenommen wird, die unabhängig von einer mentalen Repräsentation semantischer Einheiten in der menschlichen Kognition existiert. Die Semantik wird als autonome Disziplin in der Linguistik aufgefasst. Ein Merkmalsinventar expliziert systematisch die Bedeutung von Wörtern. Kontextvarianz und Weltwissen werden als Gegenstände der Betrachtung ausgeklammert.

2.2 Generative Grammatik Die Dichotomie von lexikalischem und enzyklopädischem Wissen geht auf Katz und Fodor3 zurück, deren Forschung der Semantikkomponente zu einem eigenen Stellenwert innerhalb der syntaxdominierten Transformationsgrammatik verhalf. Ziel ihrer semantischen Theorie war die Beschreibung der Fähigkeit von Sprechern, eine prinzipiell unendlich große Menge syntaktisch generierter oder generierbarer Sätze ihrer Sprache semantisch interpretieren zu können4 . Katz und Fodor wollten aber das Objekt ihrer Betrachtung einschränken auf einen weitgehend isolierten satzsemantischen Bedeutungsbegriff. Kontextuelles Wissen sollte weitestgehend ausgeklammert werden. Von daher rührt die Festlegung auf linguistisch relevantes Wissen, das zur semantischen Analyse von isolierten Sätzen notwendig sei; während der „Rest“ (etwa zur Bestimmung der Satzkontexte) dem enzyklopädischen Wissensbereich zufalle. Im Rahmen dieser Theorie stellt das Lexikon eine semantische Subkomponente dar, das die Aufgabe hat, linguistische Formen mit Bedeutungen zu verknüpfen. Auf der semantischen Ebene der lexikalischen Einträge spiegelt sich die grundsätzliche Dichotomie in der Verwendung von unterschiedlichen Beschreibungsentitäten, den sog. M ARKERN für das Kennzeichnen eines sprachsystematisch relevanten Merkmals und D ISTINGUISHERN für die Charakterisierung beliebiger weiterer semantischer Eigenschaften. Ihre

3 4

Vgl. Katz (1966). Ausführlicher hierzu Kapitel 3, Abschnitt 3 in diesem Buch.

Lexikalisches und enzyklopädisches Wissen

65

Merkmalsstruktur stellt eine Fortentwicklung des strukturalistischen Instrumentariums der Komponentenanalyse dar, ein Beispiel ist in Abb. 5 dargestellt.

Abbildung 5: Marker und Distinguisher am Beispiel der semantischen Struktur von bachelor Es ist kritisch anzumerken, dass die Annahme zweier Beschreibungskategorien auf formaler Ebene allein die Existenz dieser Unterscheidung nicht rechtfertigt. Bolinger5 hat gezeigt, dass die Unterscheidung dieser beiden Entitäten hinfällig ist, indem er alle über die Distinguisher vermittelten semantischen Informationen als Marker darstellen konnte. Ab den 1970er Jahren dienten die Marker und Distinguisher Katz zur Identifikation linguistischen Wissens. Obwohl der Ansatz aus der Mode gekommen ist, hatte er seinerzeit einen enormen Einfluss auf die nachfolgenden Entwicklungen der generativen Semantik, der kognitiven Semantik und der Prototypensemantik.

2.3 Kognitive Semantik Die Unterscheidung zwischen lexikalischem und enzyklopädischem Wissen wird im Rahmen der kognitiven Semantik als überflüssige Dichotomie charakterisiert6 und zugunsten einer unikal enzyklopädischen Semantikauffassung geopfert. Geeraerts7 begreift lexikalische Konzepte als integralen Part der menschlichen Kognition, anstatt sie als Teil einer unabhängigen Sprachstruktur innerhalb des kognitiven Systems anzusehen. Nach Auffassung der kognitiven Linguisten, zu denen seit den 1980er Jahren auch die ursprünglich als Prototypensemantiker geltenden Linguisten Lakoff und Fillmore zählen, 5 6 7

Vgl. Bolinger (1965). Vgl. Langacker (1987), S. 154-166. Vgl. Geeraerts (1988).

66

Lexikalisches und enzyklopädisches Wissen

gibt es keine separate, spezifisch linguistische oder semantische Organisation von Wissen, weshalb auch keine isolierte Forschung zur lexikalischen Semantik möglich sei. Der einzige Weg zur adäquaten Beschreibung lexikalischer Konzepte liege in einer interdisziplinär geprägten kognitiven Perspektive aus den Disziplinen der Künstlichen Intelligenz, Psychologie, Neuropsychologie und Anthropologie. Auch die von Fillmore8 begründete Framesemantik, die zur Darstellung prototypischer Szenarien für sprachliche Konzepte zunächst noch auf unterschiedliche Ebenen – Ereignis, konzeptuelle Entität, Abstraktion, Vorstellung, Interpretation und sprachliche Aktivierung – zurückgriff, hat sich zu einem kognitiven Ansatz mit einer unikalen Repräsentation, dem Frame, für lexikalische und enzyklopädische Information entwickelt9 . Eine kognitive Semantikerin und Universalienforscherin, welche die Unterscheidung zwischen lexikalischem und konzeptuellen Wissen aufrechterhält, ist Anna Wierzbicka10 . Sie hat allerdings einen weit gefassten Lexikonbegriff, der für den Eintrag Maus folgende Eigenschaften und Fakten enthält11 : charakteristische Größe, Form und Farbe von Mäusen, ihre Gewohnheiten und Fortbewegungsart sowie ihre Geräusche. Mäuse seien ängstlich, ruhig und unauffällig, sie werden von Katzen gejagt; sie essen gern Käse und leben in der Nähe von Menschen; sie werden als Plage aufgefasst und die Menschen wollen sie loswerden. (Wierzbicka, zit. nach Peeters (2000), S. 16f.) Den gewaltigen Umfang dieser Definition rechtfertigt sie mit linguistischen Beispielen und Redensarten, in denen Maus verwendet wird: • eine Katze kann ein guter Mäusefänger sein, • eine schüchterne, ängstliche oder unauffällige Person kann als Maus bezeichnet werden, z.B. als graue Maus, • Idiome, z.B. arm wie eine Kirchenmaus. Als enzyklopädische Fakten über Mäuse sind aber z.B. genaue geographische Verteilungen, Länge der Schwangerschaft, Körpergewicht für Wierzbicka vom linguistischen Wissen ausgeschlossen. Es dürfte klar sein, dass die Abgrenzung von Sprachwissen und Weltwissen auf Grund dieses Kriteriums sehr schwierig und kaum objektivierbar ist.

8 9 10 11

Vgl. Fillmore (1976). Vgl. Fillmore (1985). Vgl. Wierzbicka (1985). Vgl. Peeters (2000), S. 16f., übersetzt und verkürzt, d.A.

Lexikalisches und enzyklopädisches Wissen

67

2.4 Fortentwicklungen der Generativen Grammatik Eine deutliche Trennung von semantischem und enzyklopädischem Wissen nimmt die Zwei-Ebenen-Semantik in der Linguistik an12 . Die S EMANTI SCHE F ORM (SF) beschreibt die rein grammatische Ebene der Semantik, also die Aspekte der Bedeutung, die syntaktisch relevant sind, und die KONZEP TUELLE S TRUKTUR (CS) die semantische Ebene, die den Teil der menschlichen Kognition und außersprachlichen Wirklichkeit repräsentiert. Auf der Ebene der semantischen Form werden Wortbedeutungen prädikatenlogisch repräsentiert und über ihre Argumentstruktur durch die Anwendung von so genannten Linking Rules in die Syntax projiziert. Auf der Ebene der Konzeptuellen Struktur werden sortale Indizes für die Gebrauchsbedingungen von Wörtern (etwa Adjektiven), aspektuelle Eigenschaften, aber auch nicht formalisierbares Wissen behandelt. Im Ansatz von Wunderlich dient CS dazu, enzyklopädisches Wissen aus der Betrachtung auszulagern und sich einer engen Betrachtung der lexikalischen Semantik in Form einer PrädikatArgument-Struktur zu widmen. Bierwisch und Lang13 nutzen CS für die Explikation von Dimensionsadjektiven, die unter Rückgriff auf Weltwissen angemessener beschrieben werden können. Für Jackendoff14 , der ebenfalls formale Notationen in seiner Analyse von semantischen Rollen und Bewegungskonzepten verwendet und genau wie die generative Grammatik eine autonome Syntaxkomponente annimmt, ist hingegen die Semantik unterschiedslos konzeptuell geprägt und unmittelbarer Bestandteil der menschlichen Kognition. Eine unabhängige lexikalische Semantik nimmt er also nicht an, und Lexikoneinträge werden direkt auf das mentale Lexikon abgebildet.

2.5 Generatives Lexikon Pustejovsky (1991) unterscheidet linguistisches Wissen von Allgemeinwissen (englisch: ‚common sense knowledge‘). Diese Unterscheidung ist insofern missverständlich, als das enzyklopädische Wissen nun gerade nicht von jedem Sprecher einer Sprachgemeinschaft geteilt wird. In seiner Theorie des generativen Lexikons werden viele Wissenselemente, die andere Forscher im Bereich des enzyklopädischen Wissens ansiedeln, als lexikalisches Wissen integriert. So werden von Pustejovsky postulierte Prozesse des sog. S ELEC TIVE B INDING und der T YPE C OERCION als lexikalische Phänomene aufgefasst.

12 13 14

Vgl. Bierwisch (1983), Wunderlich (1996). Vgl. Bierwisch und Lang (1987). Vgl. Jackendoff (1990).

68

Lexikalisches und enzyklopädisches Wissen

Beim Selective Binding werden Adjektive als Funktoren auf eine semantische Rolle oder Qualia im Nomen abgebildet: (1)

ein guter Pilot

(2)

ein gutes Essen

(3)

ein gutes Buch

So kann in Beispiel (1) mit gut auf die Flugkünste des Piloten referiert werden, in (2) sowohl auf den Gehalt als auch den Geschmack oder auch die Menge eines Essens und in (3) auf die Qualität eines Buches oder die subjektive Einschätzung eines Lesers dieses Buches. Selective Binding behandelt die Kontextsensitivität von Adjektiven innerhalb der lexikalischen Komponente. Ein weiterer generativer Mechanismus, die Type Coercion, nutzt ebenfalls die Qualia Structure von Nomen, um spezifische Bedeutungen zu rekonstruieren. Im folgenden Beispiel: (4)

Ich habe früher immer gern Grass gelesen.

würden wir als direktes Objekt ein geschriebenes Objekt erwarten. Da hier nun ein Autor auftaucht, muss eine Reinterpretation des Objekts als Bücher von Grass erfolgen. Die Information, dass Grass ein Autor ist, würde man eher dem Weltwissen zuordnen, aber dass geschriebene Objekte einen Autor haben, ist in der AGENTIVE ROLE der Qualia Structure kodiert. Taucht nun in der Objektposition kein geschriebenes Objekt auf, sondern ein Name, den wir nicht einordnen können, weil wir zum Beispiel Grass nicht kennen, können wir aufgrund unseres Wissens über die Selektionspräferenz des Verbs lesen immerhin schließen, dass es um die Werke eines Autors geht. Es vollzieht sich also ein Type Shift vom Eigennamen zu geschriebenen Objekten des mit dem Eigennamen referierten Autors. Nach Pustejovsky weisen Prädikate auf der Ebene der Tiefenstruktur ihren Argumenten semantische Typen zu, etwa begin seinem Objektargument den semantischen Typ E VENT. Findet sich nun kein Ereignis in der Objektposition, wie im folgenden Beispiel, (5)

Peter began the book. (Peter begann das Buch)

dann setzt Type Coercion ein, die auf lexikalischer Information beruht, die mit dem Nomenkomplement verknüpft ist. Über die telische und agentive Rolle der Qualiastruktur von Buch können wir nun zwei Lesarten rekonstruieren:

Lexikalisches und enzyklopädisches Wissen

69

(6)

Peter began reading the book. (Peter fing an, das Buch zu lesen)

(7)

Peter began writing the book. (Peter fing an, das Buch zu schreiben)

Die beschriebenen generativen Prozesse, die Pustejovsky im Lexikon verortet, werden unter anderen Bezeichnungen, nämlich E VALUATIVE FEATURES für die Adjektivselektion bei Fillmore15 , I SOTOPY und A LLOTOPY für Type Coercion bei Klinkenberg16 , als Mechanismen betrachtet, die teilweise oder ganz auf enzyklopädisches Wissen zurückgreifen.

2.6 Abschlussbemerkung Wir haben gesehen, dass es zur Unterscheidung von Lexikon und Enzyklopädie sehr heterogene Vorstellungen in verschiedenen theoretischen Lagern gibt. Falls überhaupt eine Abgrenzbarkeit zweier Wissenstypen postuliert wird, ist umstritten, wo genau diese Grenze verläuft. Mitunter wird eine der beiden Komponenten zu Ungunsten der jeweilig anderen aufgebläht. Diese Betrachtung kann die Debatte nur exemplarisch wiedergeben. Für einen umfassenderen Überblick sei ausdrücklich auf Peeters17 verwiesen. Im Rahmen der korpusbasierten Computerlexikographie bekommt die Grenzziehung einen geringeren Stellenwert, obgleich die Möglichkeiten existieren, häufig assoziiertes Wissen zu lexikalischen Zeichen anhand von Korpusfrequenzen zu testen18 .

15 16 17 18

Vgl. Fillmore (1969). Vgl. Klinkenberg (1983). Vgl. Peeters (2000). Ausführlicher dazu Kapitel 8 in diesem Buch.

3 Lexikalische und enzyklopädische Informationen in Wörterbüchern und Lexika 3.1 Einführung Obgleich die Vagheit der Unterscheidung von semantischem und enzyklopädischem Wissen – oder Sprach- und Sachwissen – auch auf der Ebene der Wörterbuchklassifikation eine Rolle spielt, gibt es in der Praxis relativ gut erfassbare Unterschiede auf der Beschreibungsebene. Mag im Einzelnen auch unklar sein, wo die semantische Ebene aufhört und die enzyklopädische beginnt, ist es unwahrscheinlich, in einem W ÖRTERBUCH, das sich der Beschreibung von S PRACHWISSEN widmet, mehr und ausführlichere sprachliche Informationen zu einem gegebenen Stichwort vorzufinden als in einer E NZYKLOPÄDIE, welche vor allem S ACHWISSEN zu einem Lexikonwort zur Verfügung stellt. Außerdem trifft eine Enzyklopädie eine andere Auswahl über die enthaltenen lexikalischen Einheiten: es finden sich mehr Fachausdrücke jeglicher Art und Eigennamen als in einem allgemeinsprachlichen Wörterbuch. John Haiman19 , der als Theoretiker gegen eine Unterscheidung von lexikalischem und enzyklopädischem Wissen plädiert und Wörterbücher als Enzyklopädien auffasst, stellt fest: Having demonstrated that dictionaries are not in principle different from encyclopedias, I do not, in my wildest dreams, expect that sales and production of either one or the other will come to an end. Part of the reason for this is that the distinction between dictionaries and encyclopedias, while theoretically untenable, has the happy property of working very well in practice. (Haiman (1980), S. 355) Dagegen hat Frawley20 die Eigenständigkeit des Wörterbuchs verteidigt und den offensichtlichen Widerspruch, den Haiman fast genussvoll zelebriert, aufgedeckt und angegriffen. Theoretische Probleme haben die Nutzer der Wörterbücher oft nicht, egal ob sprachliches Wissen von Weltwissen hinreichend unterscheidbar ist oder ob erkenntlich ist, wo in der Bedeutungserklärung die enger gefasste semantische Information aufhört und wo das enzyklopädische Hintergrundwissen einsetzt. Wörterbuchbenutzern geht es darum, Wissen über ein nachgeschlagenes Wort zu erfahren und sie sind durchaus in der Lage, mit der Lektüre des Artikels abzubrechen, wenn sie genug erfahren haben, bzw. ein anderes, ausführlicheres Nachschlagewerk zu konsultieren, wenn die gelieferten Informationen die Ausgangsfrage nicht beantworten konnten. 19 20

Vgl. Haiman (1980). Vgl. Frawley (1981).

Lexikalisches und enzyklopädisches Wissen

71

Im günstigsten Fall werden Benutzer ein Wörterbuch entsprechend ihres Informationsbedürfnisses auswählen. Suchen sie sehr ausführliche Sachinformation, so werden sie vermutlich gleich auf eine umfangreiche Enzyklopädie wie die 30-bändige Brockhaus-Enzyklopädie21 zurückgreifen; reicht ihnen eine knappe Definition mit einem typischen Verwendungsbeispiel, so ist die Konsultation des einbändigen Duden Universalwörterbuchs22 meist ausreichend. Im Falle der Suche nach formbezogener Information zu einer lexikalischen Einheit ist ein Wörterbuch das geeignete Medium der Recherche. Ist eine gute Übersetzung gesucht, muss ein zweisprachiges Wörterbuch konsultiert werden. Schließlich haben die Autoren von Wörterbüchern und Enzyklopädien andere Prioritäten als die Theoretiker, weil von ihnen ja ein Produkt verlangt wird, das, so unvollkommen es unter sprachtheoretischem Aspekt sein mag, ein wertvolles Wissensrepertoire für Schule, Studium, Beruf und Alltag darstellt. Wörterbücher entstehen oft unter großem zeitlichen Druck und mit knappen personellen Ressourcen, so dass ein pragmatisches Vorgehen bei der Erstellung der Artikel erforderlich ist, was die Übernahme von Strukturen und Inhalten von Artikeln anderer Wörterbücher einschließt.

3.2 Was unterscheidet Wörterbücher, Lexika und Enzyklopädien? Im Unterschied zu nicht-linguistischen Nachschlagewerken, wie Farbtafeln, Formelbüchern, Straßenkarten, Telefonbüchern etc., zeichnen sich Wörterbücher dadurch aus, dass sie sprachliche Informationen über Wörter und visuell oder sprachlich repräsentierte Begrifflichkeiten23 enthalten, die durch eine äußere Zugriffsstruktur – etwa die alphabetische Anordnung der Wörterbuchartikel – abrufbar sind. Über Mikro- und Makrostruktur von Wörterbüchern wird ausführlich in Kapitel 5 die Rede sein. Wie erklären die Experten der Praxis nun selbst den Unterschied zwischen verschiedenen Wörterbüchern? Das Duden Universalwörterbuch24 definiert zu den Stichwörtern Wörterbuch, Lexikon und Enzyklopädie: (8)

21 22 23 24

Wörterbuch, das Nachschlagewerk, in dem die Wörter einer Sprache nach bestimmten Gesichtspunkten ausgewählt, angeordnet und erklärt sind; ein ein-, zweisprachiges, etymologisches W.; ein W. der deutschen Umgangssprache.

Vgl. Brockhaus-Redaktion (1996). Vgl. Dudenredaktion (1996). Z.B. in B ILDWÖRTERBÜCHERN und anderen onomasiologischen Wörterbüchern. Vgl. Dudenredaktion (1996).

72

Lexikalisches und enzyklopädisches Wissen

(9)

Lexikon, das 1. nach Stichwörtern geordnetes Nachschlagewerk für alle Wissensgebiete oder für ein bestimmtes Sachgebiet: ein L. in fünfzehn Bänden; ein L. der Kunstwissenschaft; L. für Wirtschaft und Handel; L. zur Sexualität; er ist ein wandelndes/lebendes L. (ugs. scherzh.: weiß auf allen Gebieten Bescheid; 2. (veraltet) Wörterbuch 3. (Sprachw.) a. Gesamtheit der selbstständigen bedeutungstragenden Einheiten einer Sprache; Wortschatz im Unterschied zur Grammatik einer Sprache; b. (in der generativen Grammatik) Sammlung der Lexikoneinträge einer Sprache.

(10)

Enzyklopädie, die Nachschlagewerk, in dem der gesamte Wissensstoff aller Disziplinen oder nur eines Fachgebiets in alphabetischer oder systematischer Anordnung dargestellt ist.

Die Definitionen im sechsbändigen Brockhaus-Wahrig25 sind verblüffend ähnlich; der Text in den Definitionen für Lexikon und Enzyklopädie ist fast identisch; nur in Bezug aufWörterbuch ist der Brockhaus-Wahrig ausführlicher und schließt auch Angaben zur sprachlichen Form, sowie etymologische Angaben und Übersetzungsinformationen ein. Auch die Beispiele für verschiedene Unterarten und Einsatzbereiche der Wörterbücher sind vielfältiger: (11)

Wörterbuch alphabetisch oder nach bestimmten begrifflichen Gesichtspunkten geordnetes Verzeichnis des Wortschatzes oder eines Teils der Sprache, i.d.R. mit Erklärungen zu Form und / oder Inhalt und / oder Geschichte der Wörter oder mit Übersetzungen in eine andere Sprache; Fremd-, Fach-, Synonym-, Bildwörterbuch; ein zweisprachiges, mehrsprachiges Wörterbuch; ein rückläufiges, ein etymologisches Wörterbuch; ein W. der Kaufmannssprache; ein deutsch-englisches, englisch-deutsches W.; ein literarisches, medizinisches, theologisches W.

Auffällig ist: Wörterbuch und Enzyklopädie sind in den Definitionen klar voneinander abgegrenzt. Den eigentlich interessanten Eintrag, der im Duden Universalwörterbuch und Brockhaus-Wahrig ja fast identisch ist, gibt das polyseme Lexikon mit seinen drei Lesarten her, nämlich a) als Enzyklopädie, b) als Wörterbuch und c) als (abstrakte) Komponente im Sprachsystem. Damit ist der Begriff Lexikon Mittler zwischen den Facetten der Lexikographie und das Verbindungsglied zur Lexikologie, und ein Teil der begrifflichen Verwirrung stammt gewiss aus einem unreflektierten Gebrauch dieses Wortes. Aber wir werden noch sehen, dass bei konkreten Analysen sprachliche und sachliche Informationen ineinander übergehen und schwer zu trennen sind.

25

Wahrig et al. (1980-1984).

Lexikalisches und enzyklopädisches Wissen

73

Wir unterscheiden vorläufig folgende Arten von sprachlichen Nachschlagewerken: • Wörterbuch: ein Nachschlagewerk, das sprachliches (= formbasiertes und inhaltsbezogenes) Wissen zu Wörtern oder anderen lexikalischen Einheiten enthält, z.B. das Duden Universalwörterbuch; • Enzyklopädie: ein Nachschlagewerk, das Sach- und Fachwissen zu lexikalischen Einheiten und Begriffen enthält, z.B. die Enzyklopädie von Brockhaus oder auch die Online-Enzyklopädie Wikipedia26 ; • das enzyklopädische Wörterbuch, das sowohl Sprach- als auch Sachwissen zu lexikalischen Einheiten aufführt27 ; • das Übersetzungswörterbuch, das die Äquivalente zu lexikalischen Einheiten in der Zielsprache bereitstellt28 ; • das Fachwörterbuch, das überwiegend sachbezogene Informationen zu den Fachtermen einer Disziplin bereitstellt29 ; • das Fremdwörterbuch, in dem nicht-native Wörter aufgelistet und beschrieben werden30 .

3.3 Der Beispieleintrag Banane in Wörterbuch und Enzyklopädie Dieser Abschnitt stellt den von Lothar Lemnitzer und Stefan Engelberg (2001, S. 11) ausführlich besprochenen Beispieleintrag Banane in Wörterbuch und Enzyklopädie vor. Banane als eine Sorte Obst wird klassischerweise als NATURAL KIND TERM31 bezeichnet, eine Charakterisierung, die auch auf andere natürliche Arten zutrifft. Die theoretische Lexikonforschung hat für natürliche Arten, die in ihrem Referenzverhalten hybride Züge zwischen indefiniten Beschreibungen und Eigennamen aufweisen, extreme Definitionen vorgeschlagen, wie etwa Wierzbicka32 für horse33 : (12)

A horse is an animal called horse.

Im Verlauf der weiteren Forschung sind dann zunehmend prototypisch inspirierte Definitionen für Auftretensfälle natürlicher Arten entwickelt worden, denn diese scheinen den jeweiligen internalisierten Konzepten der Sprecher

26 27 28 29 30 31 32 33

de.wikipedia.org. Z.B. Brockhaus-Redaktion (1968). Z.B. Vennebusch (1980). Z.B. Bußmann (1990). Z.B. Dudenredaktion (1990). Nach Putnam, vgl. Putnam (1973). Vgl. Wierzbicka (1972). Wierzbicka (1972), S. 54.

74

Lexikalisches und enzyklopädisches Wissen

zu entsprechen, also das Sprachwissen am ehesten zu reflektieren. Aber nun zu dem Beispiel, das zwei Artikel zum Eintrag Banane präsentiert34 : (13)

Ba-na-ne die: -, -n; e-e längliche, gekrümmte, tropische Frucht mit gelber Schale u. e-m weißen, süß schmeckenden Fruchtfleisch || Abbildung unter Obst || K-: Bananen-, -schale, -staude

(14)

Banane (Musa), tropische baumartige großblättrige Staude mit palmenartigem Aussehen und deren gelbschalige Frucht. Die vitaminhaltigen Früchte werden grün geerntet und erhalten ihre Reife während des Transports zum Verbraucher. In den Anbaugebieten (Tropen, zum Teil auch Subtropen) ist die Banane Grundnahrungsmittel. Bekannt sind auch die Faser- (Manilahanf) und die Zierbanane. – Bananenkulturen wurden bereits von den Geographen Alexanders des Großen beschrieben, das heutige Europa kennt sie seit der Entdeckung Amerikas.

Im Beispiel (13) ist neben formbasierter Information, wie Silbentrennung, Angabe des Wortakzents, Genus, Pluralbildung, eine kurze wenn auch mit vielen Attributen gespickte Definition als Frucht gegeben. Frucht bezeichnet den Oberbegriff und ist als Kern sprachlichen Wissens über Banane anzusehen; ebenso käme hier auch Obst in Frage. Die Angaben länglich, gekrümmt, gelbe Schale, süß schmeckendes Fruchtfleisch referieren auf prototypisches Wissen über eine Banane; tropisch könnte schon eine enzyklopädische Eigenschaftszuschreibung sein, wie sie aber für die Beschreibung natürlicher Arten auch im Wörterbuch häufig vorkommt. Es gibt einen Verweis auf eine Abbildung im semantischen Feld Obst. Ferner werden Beispiele für Komposita, in denen Banane auftritt, aufgeführt: Bananenstaude, Bananenschale. Der Eintrag in Beispiel (14) enthält keine formbasierten Angaben, dafür den botanischen Fachausdruck und die enzyklopädisch relevante Einordnung als Staude und deren gelbschalige Frucht. Dass sie ein Nahrungsmittel mit gelber Schale ist, erfahren wir auch hier, aber nichts zur Form (gekrümmt) und zum Geschmack. Neben der botanischen Einordnung werden Angaben zu ihrem Ernährungswert und Transportweg, inklusive Reifungsprozess, gemacht. Wir erfahren so auch, dass die Banane ein wichtiges Produkt und ein Grundnahrungsmittel für die Bevölkerung der Anbaugebiete darstellt. Es werden zwei Unterarten der Banane, die vermutlich nicht essbar sind, genannt. Es gibt einen historischen Verweis auf ihre Bekanntheit in Nichtanbaugebieten und eine Abbildung. Trotz der partiellen Überlappung von Sprach- und Weltwissen in beiden Definitionen, die aufzeigt, dass die minutiöse Unterscheidbarkeit beider Wör34

Der erste Eintrag stammt aus dem Langenscheidt Großwörterbuch Deutsch als Fremdsprache Götz (1998), der zweite aus der Enzyklopädie von Trautwein (Boos et al. (2000)).

Lexikalisches und enzyklopädisches Wissen

75

terbuchtypen in Bezug auf alle Wissenssegmente schwierig bleibt, werden die generischen Unterschiede zwischen Wörterbuch und Enzyklopädie an diesem Fallbeispiel recht deutlich. Im Typus der enzyklopädischen Wörterbücher35 sind Sprach- und Sachinformationen in einem Eintrag verknüpft und werden z.T. explizit in der Artikelstruktur kenntlich gemacht. Diese Hybridform bietet sich für Wörterbuchbenutzer an, die neben umfangreicher Sachinformation auch elementare grammatische Angaben über ein Stichwort nachschlagen wollen. Die gemeinsame Abhandlung in einem Eintrag bietet sich nicht zuletzt deshalb an, als die alphabetische stichwortbezogene Zugriffsstruktur von Wörterbüchern und Enzyklopädien sehr ähnlich ist. Für die Integration fachsprachlichen Wissens und die Erwähnung kultureller Besonderheiten in Lernerlexika und bilingualen Lexika, z.B. gesellschaftliche Gepflogenheiten, landestypische Einstellungen bis hin zu Eigennamen von wichtigen Personen und Institutionen, eignen sich enzyklopädische Wörterbücher hervorragend und erfreuen sich zunehmender Beliebtheit. Elektronische Wörterbücher können sich den heterogenen Nutzerbedürfnissen besser anpassen, da sie nicht mehr auf Sparsamkeit und Beschränkung in der Repräsentation lexikographischen Wissens zu achten haben.

4 Weiterführende Literatur Die erste Referenz für einen tiefergehenden Einstieg in das Thema ist das Buch von Bert Peeters The lexicon-encyclopedia interface und besonders die von ihm verfasste Einleitung. Peeters betrachtet die Thematik aus linguistischer Sicht. Den lexikographischen Standpunkt stellt Fernando Lara (1989) dar, der Artikel ist allerdings auf Französisch abgefasst. Einen guten Überblick gibt auch das erste Kapitel der Einführung in die Lexikographie von Engelberg und Lemnitzer (2001). Das Projekt Cyc (www.cyc.com) ist ein Projekt aus den Frühzeiten der künstlichen Intelligenz mit dem Ziel, so viel Weltwissen wie möglich zu sammeln und in maschinenverarbeitbarer Form verfügbar zu machen. Ein Blick auf die Website des Projekts lohnt sich, wenn man wissen will, was in dieser Hinsicht bisher erreicht worden ist. Erwähnt werden soll hier auch das kommunitäre Wikipedia-Projekt (de.wikipedia.org), das recht stattliche Enzyklopädien in zahlreichen Sprachen aufgebaut hat, weiter entwickelt und diese Daten der Öffentlichkeit, und damit auch der computerlexikographischen Forschung, zur Verfügung stellt.

35

Vgl. z.B. Brugère-Trélat (1980).

76

Lexikalisches und enzyklopädisches Wissen

5 Aufgaben 1. Schlagen Sie im Duden Universalwörterbuch und in der WikipediaEnzyklopädie (de.wikipedia.org) jeweils die folgenden Begriffe nach: • Quantensprung • raffiniert • Delfin Kennzeichnen Sie jeweils die Bereiche lexikalischen und enzyklopädischen Wissens in den Einträgen! 2. Für welches Stichwort würden Sie welches Nachschlagewerk konsultieren? (Zur Auswahl stehen: Wörterbuch, Enzyklopädie, enzyklopädisches Wörterbuch, Fachwörterbuch, Fremdwörterbuch und Übersetzungswörterbuch.) Bitte begründen Sie Ihre Wahl! a) Halloween b) trinken c) Libido d) Tübingen e) Birkenfeige f) Zylinder g) Disagio h) employer i) abseits j) Untersuchungsausschuss k) Tigerstaat l) wegen

5 Wörterbuchstrukturen

In diesem Kapitel werden Sie etwas über die Strukturen von Wörterbüchern und Wörterbuchartikeln erfahren. Sie werden am Ende dieses Kapitels wissen, wie man diese Strukturen mithilfe von Markupsprachen in digitalen Wörterbüchern kodieren kann. Sie werden zwei Beispiele für lexikalische Informationssysteme kennengelernt und gesehen haben, welche Bedeutung eine explizite Strukturierung der zugrunde liegenden Daten für solche Informationsdienste hat. Sie haben außerdem einen Standardisierungsvorschlag für Artikelstrukturen und ihre Elemente kennengelernt. Sie wissen, wie ein Wörterbuchparser funktioniert, der ein Printwörterbuch in ein maschinenlesbares Wörterbuch umwandelt.

1 Analyse von Wörterbuchstrukturen 1.1 Einleitung Das lexikalische Wissen, das in Wörterbüchern kodiert ist, wird dem Wörterbuchbenutzer nicht beliebig, willkürlich und unsortiert, sondern in einer vom Wörterbuchhersteller festgelegten Anordnung, die nach formalen und inhaltlichen Kriterien vorgenommen ist, präsentiert. Das erste und wichtigste, eigentlich selbstverständliche Kriterium, das nichts mit der Bedeutung der beschriebenen lexikalischen Einheiten zu tun hat, ist die (meist) alphabetische Anordnung der Wörterbucheinträge. Sobald man also die Grundform des gesuchten Stichwortes weiß, kann nachgeschlagen werden. Hierbei kann die Benutzerin erwarten, dass die Reihenfolge: orthographische Form vor morpho-syntaktischer Form vor Definition vor Beispielverwendungen zu einem Stichwort in fast allen Standardwörterbüchern europäischer Sprachen strikt eingehalten wird. Sie kann ebenso darauf bauen, dass bei polysemen Ausdrücken (also solchen mit mehreren Lesarten) für jede Lesart eine eigene Definition und spezifische Beispiele angegeben werden; auch, dass diese unterschiedlichen Lesarten zum gleichen Stichwort typographisch deutlich, meist numerisch, voneinander abgegrenzt sind. Dass Wörterbuchhersteller bei der Auswahl, Anordnung und dem Umfang der lexika-

78

Wörterbuchstrukturen

lischen Elemente in den Wörterbuchartikeln unterschiedliche Schwerpunkte setzen, überrascht angesichts der Vielzahl der Typen und Verwendungsszenarien von Wörterbüchern nicht (für einen Überblick, vgl. Engelberg und Lemnitzer (2001), Kapitel 2). Die oft unter pragmatischen Gesichtspunkten erstellten Heuristiken für die lexikographische Abhandlung einer Vielzahl von Wörtern wurden von den lexikologischen Theoretikern oft mit Skepsis betrachtet oder nicht ernst genommen: „Lexicography is anecdotal, circular, and devoid of any scholarly value“ (Raskin (1985), S. 99). Der Lexikographie wurde der Status einer echten Wissenschaft meist abgesprochen, wenn auch nicht der einer wissenschaftlichen Praxis, einer Praxis also, die sich so weit wie möglich von wissenschaftlichen Erkenntnissen und Prinzipien leiten lässt. Es gibt auch ernstzunehmende Befürworter dieser lexikographischen Praxis als Wissenschaft, wie etwa Willard van Orman Quine, der die Logik des Lexikons (Wörterbuchs) der Logik der Metasprache (vgl. Quine (1981)) vorzieht. Ein real existierendes Lexikon bzw. dessen Definitionen bildete auch das Hintergrundwissen für Quillians Modellierung des semantischen Gedächtnisses (vgl. Quillian (1966)), das in der künstlichen Intelligenz und Informatik die Ära der so genannten ‚semantischen Netze‘ einleitete. Aus der Perspektive theoretisch orientierter (Meta)-Lexikographen1 wurde der Gedanke ab den 1970er Jahren faszinierend, auch die Betrachtung von Wörterbüchern, die bis dato nicht als eigener Gegenstand wissenschaftlicher Forschung galt, unter formalen Kriterien vorzunehmen, Strukturmuster zu beschreiben und abzubilden und der Wörterbuchforschung einige Termini (also ein Fachvokabular der Lexikographie) zur Verfügung zu stellen. In diesem Zusammenhang sind die Begriffe M AKROSTRUKTUR, M IKROSTRUK TUR und V ERWEIS ( UNGS ) STRUKTUR bzw. M ESOSTRUKTUR geprägt worden, deren Konzepte für die Wörterbuchanalyse ein wichtiges Instrumentarium bereitstellen. Von der formalen Explikation existierender Wörterbücher sollten natürlich auch Impulse für neuartige Wörterbuchkonzeptionen ausgehen. Überlegungen zur Gestaltung von Mikrostrukturen müssen auch für elektronische Wörterbücher und hypertextuelle Wörterbücher neu überdacht werden. Es bleibt anzumerken, dass unabhängig davon, ob Print- oder elektronische Wörterbücher entstehen, Überlegungen und Entscheidungen zur Modellierung der Elemente in Wörterbüchern eine unerlässliche Grundvoraussetzung für die Wörterbucherstellung sind.

1

Vgl. z.B. Rey-Debove (1971),Wiegand (1977), Wiegand (1989), Wiegand (1998).

Wörterbuchstrukturen

79

1.2 Makrostruktur Definition 1 (Makrostruktur). Unter der M AKROSTRUKTUR eines Wörterbuches verstehen wir die geordnete Menge seiner Lemmata. Das Lemma als Epiphänomen vermittelt zwischen Makro- und Mikrostruktur2 . Um eine Trägermenge von Lemmata als Grundlage für die Anordnung von Wörterbuchartikeln zu erstellen, müssen Textwörter in ihrer meist flektierten Form lemmatisiert werden. Im Prinzip wird bei der Lemmatisierung von möglichen morphologischen Varianten abstrahiert, und es wird die kanonische Form oder Grundform veranschlagt: bei Nomen der Nominativ Singular, bei Verben der Infinitiv und bei Adjektiven die prädikative Form. So hat der Lemmabegriff, den ein Wörterbuch ansetzt, unmittelbare Auswirkungen auf die Makrostruktur: Stellen wir mehrdeutige Wörter als Homonyme (mehrere Einträge) oder Polyseme (innerhalb eines Eintrags) dar? Es gibt aber weitere Probleme bei • attributiven Adjektiven wie *letzt*, das in dieser „Grundform“ ja gar nicht auftritt, und bei dem man sich für eine der Varianten (letzt, letzte (r,s), letzt- o.Ä.) entscheiden muss; ebenso bei substantivierten Adjektiven (Kranker, Kranke) oder Partizipien (Inhaftierter, Inhaftierte) und bei regelmäßigen Genusvarianten, etwa bei Berufsbezeichnungen (IngenieurIn, SchuhmachermeisterIn); • lautlichen Varianten, z.B. duss(e)lig, die in einem Lemma zusammengefasst oder als zwei getrennte Lemmata, die aufeinander verweisen, repräsentiert werden; und bei orthographischen Varianten, die seit der Rechtschreibreform verstärkt auftreten (Potential, Potenzial); in diesen Zusammenhang fällt auch die Entscheidung, wie Zahlwortvarianten (zehnfach, 10-fach) behandelt werden; • Mehrwortlexemen, deren Umfang und Zitierform oft unklar sind: einen Bärendienst erweisen, jemandem einen Bärendienst erweisen, jemandem einen echten (wirklichen, wahrhaftigen, richtigen...) Bärendienst erweisen. Mitunter ist auch unklar, unter welchem Lemma das Mehrwortlexem verzeichnet werden soll: einen Bock schießen unter schießen oder Bock. Die Makrostruktur ist eine elementare Zugriffsstruktur im Wörterbuch. Lemnitzer und Engelberg (2001, S. 125) unterscheiden: 2

Diese Definition ist enger als die gemeinhin in der Metalexikographie mit Bezug auf Printwörterbücher verwendete. Dort umfasst die Makrostruktur als Trägermenge alle Teile eines Wörterbuchs, also z.B. auch Benutzungshinweise, lexikographische Einführung, Wörterverzeichnis und Abkürzungsverzeichnis, vgl. hierzu z.B. Engelberg und Lemnitzer (2001), Kap. 4. Unsere engere Definition, die sich im Wesentlichen auf das Wörterverzeichnis bezieht, erscheint uns aber im Kontext der Computerlexikographie angemessener. Wir haben es hier mit lexikalischen Ressourcen zu tun, bei denen die Verbindung des Wörterverzeichnisses zu anderen Bestandteilen viel weniger klar ist.

80

Wörterbuchstrukturen

• monoakzessive Wörterbücher mit einer äußeren Zugriffsstruktur (es gibt nur ein Wörterverzeichnis und einen Suchpfad im Wörterbuch); • monoakzessive Wörterbücher mit mehreren äußeren Zugriffsstrukturen (es gibt mehrere Wörterverzeichnisse mit unterschiedlichen Stichwörtern: z.B. Allgemeinwortschatz, Eigennamenverzeichnis); • polyakzessive Wörterbücher mit mehreren äußeren Zugriffsstrukturen: zwei Verzeichnisse (Wörterverzeichnis und Register) und zwei verschiedene Suchpfade stehen zum Beispiel in Thesauri zur Verfügung; • polyakzessive Wörterbücher mit einer äußeren Zugriffsstruktur: es gibt nur ein Verzeichnis, aber Verweise zwischen Lemmata, die wir in der alphabetischen Struktur des Wörterverzeichnisses weiterverfolgen müssen. Normalerweise ist in Wörterbüchern westlicher Sprachen die alphabetische, genauer gesagt die initialalphabetische Anordnung für die Makrostruktur bestimmend; eine finalalphabetische Ordnung findet man etwa in arabischen Wörterbüchern. Auch Zeichensprachen wie das Chinesische müssen sich anderer Zugriffsstrukturen bedienen. In einem Thesaurus wie WordNet, der die semantischen Beziehungen zwischen Konzepten kodiert, fungiert die alphabetische Ordnung ebenfalls nicht als primäre Zugriffsstruktur. Die alphabetische Ordnung in herkömmlichen Wörterbüchern hat noch zwei Varianten: nischenalphabetische Strukturen (welche ebenfalls strikt der alphabetischen Ordnung gehorchen) und nestalphabetische Strukturen, welche bei so genannter Gruppierung, etwa von Komposita zu einem generischen Begriff, den Fluss der alphabetischen Ordnung durchbrechen3 . Ein wesentlicher Nachteil der alphabetischen Ordnungsstruktur liegt auf der Hand: Sie spiegelt nicht die konzeptuell motivierte Wortschatzstruktur. Daher sollten Wörterbücher Ordnungskriterien oder Zugriffsstrukturen zur Verfügung stellen, die der semantischen Struktur des Wortschatzes besser gerecht werden.

1.3 Mikrostruktur Definition 2 (Mikrostruktur). Die M IKROSTRUKTUR bezeichnet die hierarchische Binnengliederung eines Wörterbucheintrages zu einem gegebenen Lexikonstichwort oder Lemmazeichen als konkrete Analyse eines gegebenen lexikalischen Eintrags, aber auch als Abstraktion über Typen lexikalischer Einträge (abstrakte Mikrostruktur). Der Begriff der Mikrostruktur geht auf Josette Rey-Debove (1971) zurück, die ihn auf die lineare Analyse von Textsegmenten in Wörterbuchartikeln anwendet. Auch der Begriff des lexikographischen Informationsprogramms ist 3

z.B. Apfel[...]; Apfelbaum, Apfelschnaps, Apfeltasche, Apfeltorte, [...] Apfelsine – das Nest zu Apfel enthält Lemmata, die striktalphabetisch Apfelsine nachgeordnet sein müssten.

Wörterbuchstrukturen

81

von Rey-Debove geprägt worden. Die Theorie der Mikrostruktur von Wörterbuchartikeln ist in den siebziger Jahren von Wiegand (vgl. Wiegand (1977)) in Anlehnung an die Forschungen Rey-Deboves begonnen und in der Folgezeit (vgl. Wiegand (1989)) zu einem hierarchischen Modell ausgearbeitet worden. Zunächst ist der Zugriff auf die Mikrostruktur zu einem gegebenen Lemma meist Ziel der Wörterbuchrecherche: man sucht z.B. Information über die Schreibung, Lautung, morphosyntaktischen oder anderen grammatischen Charakteristika oder über die Bedeutung und/oder Verwendung eines bestimmten lexikalischen Zeichens. Im folgenden Beispiel sehen wir den Eintrag aus dem Duden Universalwörterbuch4 zu Pamphlet: (1)

Pamph|let, das: -[e]s, -e [frz. Pamphlet, engl. Pamphlet = Broschüre, H. u.]: Streit- oder Schmähschrift: ein politisches P., ein P. gegen jmdn schreiben, verfassen Der Eintrag zu Pamphlet enthält folgende Angaben:

• Pamphlet besteht aus den Silben Pamph und let, mit Betonung auf der zweiten Silbe mit langem Vokal. • Pamphlet bezeichnet ein Substantiv Neutrum Singular und kann den Genitiv Singular sowohl mit -es als auch -s sowie den Nominativ Plural mit -e bilden. • Das Wort wurde aus dem Englischen ins Französische und dann aus dem Französischen entlehnt; die weitere Herkunft ist ungeklärt. • Es wird im bildungssprachlichen Deutsch abwertend gebraucht und bedeutet Kampfschrift oder Schmähschrift. • Es wird wie in den folgenden Beispielphrasen verwendet: ein politisches Pamphlet, ein Pamphlet gegen jemanden schreiben und ein Pamphlet gegen jemanden verfassen. Wie man am Artikel und der hier gegebenen Paraphrasierung der Angaben sieht, werden die Informationen im Wörterbuchartikel stark verdichtet, z.B. durch Abkürzungen und Ersetzungen von Wörtern und Wortteilen durch Platzhalter. Dies ist der Platzökonomie bei Printwörterbüchern geschuldet und hat keine weitere, prinzipielle Ursache. Bei der Digitalisierung von Wörterbüchern oder der Neuerstellung von elektronischen lexikalischen Ressourcen kann und sollte auf solche Techniken der Informationsverdichtung verzichtet werden. In der jüngeren Metalexikographie, die den lexikographischen Arbeitsprozess und seine Produkte detailliert beschrieben hat, wurde auch ein Inventar 4

Vgl. Dudenredaktion (1996).

82

Wörterbuchstrukturen

von sog. Angabetypen aufgestellt (vgl. hierzu Wiegand (1989)). Diese Angabetypen bilden die Trägermengen der Mikrostrukturen vieler Wörterbücher. Wir werden deshalb im Folgenden einen Überblick über die gängigsten Angabetypen und funktionalen Textsegmente geben5 : • Jeder Wörterbuchartikel (WA) hat zwei Hauptelemente, den Formkommentar (FK) und den Semantischen Kommentar (SK); • Informationen zum Lemma: Lemmazeichengestaltangabe (LZGA) zur Aufführung der Zitierform des Lemmas, Lemmazeichengestaltangabe für die schriftliche Realisierung (LZGA.sR); • phonetisch-phonologische und orthographische Angaben: Ausspracheangabe (AusA), Akzentangabe (AkzA), Vokalqualitätsangabe (VQA), Silbenangabe (SA), Rechtschreibangabe (RA), Worttrennungsangabe; • morphologische Angaben: Flexionsangabe (FlA), Genusangabe (GA), Graduierungsangabe (GradA), Kompositumsangabe (KompA), Wortfamilienangabe(WfA), Deklinationsangabe (DekA), Pluralbildungsangabe (PlbA), Singularbildungsangabe (SgbA); • syntaktische Angaben: Wortangabe (WA), Wortartenangabe (WAA), Angabe zur syntaktischen Valenz (VVA), Adjektivdistributionsangabe (attributive, prädikative oder adverbiale Verwendung von Adjektiven); • syntaktisch-semantische Angaben (SynSem): zum Beispiel Kollokationsangabe (KollA), Idiomangabe, Sprichwortangabe (SprichwA), Kompetenzbeispielangabe (KBeiA) für Angabe von Beispielen, die nur auf Kompetenz des Lexikographen gestützt sind, Belegbeispielangabe für meist korpusbasierte Beispiele (BeiA) plus Belegstellenangabe (BStA) für die Angabe der Fundstelle; • semantische Angaben (SK): Bedeutungsangabe (BA), Bedeutungsparaphrasenangabe (BPA), Synonymenangabe (SynA), die Antonymenangabe (AntA), Polysemieangabe (PA), Illustrationsangabe (IA), Übersetzungsäquivalentangabe (WÄA); • pragmatische Angaben (PragA): Fachgebietsangabe (FGA), Stilschichtenangabe (StilA), Häufigkeitsangabe (HA), Angabe zur zeitlichen Einordnung (diachrA) wie z.B. veraltet, Angabe zur räumlichen Verbreitung, Fremdwortherkunftsangabe, Normierungsangabe, Textsortenangabe (z.B. Zeitungssprache), Mediumsangabe (z.B. gesprochene Sprache); • sonstige Angaben: Etymologische Angabe (EtyA), Verweisangabe (VerwA). Diese Angaben werden in größeren Strukturen zusammengefasst: Formkommentar (FK), grammatische Angaben (GramA), semantischer Kommentar, pragmatisch-semantische Angaben (PragSemA). 5

In Klammern hinter den Angabetypen stehen die gebräuchlichen Abkürzungen, die auch wir in diesem Buch hin und wieder verwenden werden.

Wörterbuchstrukturen

83

Wir wollen uns exemplarisch eine konkrete Mikrostruktur anschauen: (2)

Rappe, der: -en, -en ‚schwarzes Pferd‘

Abbildung 6: Strukturgraph des Wörterbuchartikels Rappe

Dieses Beispiel steht für die Mikrostruktur eines konkreten Lexikoneintrags. Diese konkreten Mikrostrukturen können zu Äquivalenzklassen zusammengefasst und damit zu abstrakten Mikrostrukturen generalisiert werden. Abstrakte Mikrostrukturen spezifizieren ein einheitliches Informationsprogramm für große Gruppen von lexikalischen Einträgen. Sie sind somit ein gutes Mittel für die Standardisierung bei der Erstellung von Wörterbuchartikeln und eine Orientierungshilfe für Wörterbuchbenutzer. Folgende Punkte muss man beim Ansetzen abstrakter Mikrostrukturen berücksichtigen: • Die Angaben bestimmter Angabeklassen müssen in allen abstrakten Mikrostrukturen realisiert sein. Dies sind die obligatorischen Angaben, z.B. die Lemmazeichengestaltangabe; • Angaben spezifischer Angabeklassen sind nur für spezifische abstrakte Mikrostrukturen obligatorisch (z.B. Genusangaben für Substantive); • Angaben einiger Angabeklassen sind für alle abstrakten Mikrostrukturen optional (etwa Beispielangabe oder Belegangabe); • Angaben mancher Angabeklassen sind für einige abstrakte Mikrostrukturen optional, während sie für andere Strukturen nicht zulässig sind (Graduierungsangaben sind etwa nur bei Adjektiveinträgen möglich). Erwähnt werden soll an dieser Stelle, dass Wiegand des Weiteren zwischen einfachen integrierten Mikrostrukturen, einfachen, nicht-integrierten und er-

84

Wörterbuchstrukturen

weiterten integrierten Mikrostrukturen unterscheidet, wobei Letztere fähig sind, dem Artikel nachgestellte Verweisstrukturen in die Mikrostruktur zu integrieren6 . Die vollständige Beschreibung der Mikrostrukturen in einem Wörterbuch muss folgende Informationen enthalten: 1. alle funktionalen Textsegmente, die im Wörterbuch vorkommen; 2. für alle Angaben bestimmter Angabeklassen, ob sie notwendig, optional oder nicht zulässig sind; 3. alle Lemmazeichentypen; 4. Zuschreibung aller abstrakten Mikrostrukturen zu den jeweiligen Lemmazeichentypen. Für eine ausführlichere Darstellung sei auf Wiegand (1989) verwiesen. Seine verdienstvollen Forschungen haben – auch wenn das Beschreibungsinstrumentarium gewöhnungsbedürftig, nicht immer sehr übersichtlich (mit vielfältigen Benennungen und Kürzeln) und in der Kopierung von Strukturrepräsentationen redundant ist – Begrifflichkeiten für die Wörterbuchanalyse hervorgebracht, die den Forschungsboom in der (Computer-)Lexikographie der vergangenen Jahrzehnte initiierten und terminologisch begleiteten.

1.4 Verweisstrukturen Wörterbücher machen regen Gebrauch von Verweisen, d.h. der Wörterbuchbenutzer wird bei der Recherche zu einem Stichwort zu einem anderen Wörterbuchartikel gelenkt, den er zur Vervollständigung der Information nachschlagen soll. Meist ist dieser Verweis durch ein Pfeilsymbol repräsentiert. Viele Verweise betreffen lexikalisch-semantische Relationen (etwa den Verweis auf ein semantisches Gegenteil, ein Antonym) oder grammatische Derivationsbeziehungen zwischen dem Stichwort und einer Grundform (trug zu tragen). Es kann aber auch auf ein bedeutungstragendes Stichwort aus einem Phrasem verwiesen werden (z.B. jmdn. über den → Leisten ziehen). Feste Konventionen für Verweise gibt es nicht; so kann auch eine Phrase das weitere Nachschlagen induzieren: (nautisch: die Nautik betreffend). Ärgerlich sind Verweise dann, wenn sie immer weiter vom eigentlichen Suchwort fort verweisen oder gar zirkulär sind, also ein erster Lexikoneintrag auf einen anderen verweist und dieser wieder auf ersteren: kaufen auf erwerben und erwerben auf kaufen. Für eine gelungene Verweisstruktur im Wörterbuch ist wesentlich, dass die Einträge konsistent sind, also dass nicht etwa auf einen Eintrag verwiesen wird, den es in dem speziellen Wörterbuch gar nicht gibt. Man unterscheidet: 6

Vgl. die Zusammenfassung in Engelberg und Lemnitzer (2001), S. 141ff.

Wörterbuchstrukturen

85

• Grammatische Verweise: Diese Verweise haben die Funktion, die Unzulänglichkeiten der Makro- und Mikrostruktur von Printwörterbüchern auszugleichen. Die alphabetische Anordnung von Einträgen im Wörterbuch erzwingt es, dass z.B. die Grundformenangabe als Verweis auf die Grundform realisiert wird, wenn diese Grundform alphabetisch weit entfernt vom Stichwort ist (z.B. buk → backen). • Inhaltliche Verweise: Diese Verweise realisieren auf der Ebene der Wörterbuchstruktur Relationen, die im Wortschatz vorhanden sind, z.B. die paradigmatischen Relationen (Synonymie etc.). Die grammatischen Verweise sind medienspezifisch. In elektronischen Wörterbüchern können und sollten sie entfallen. Für die lexikalisch-semantischen Verweise ist es vielversprechend, mit Dafydd Gibbon (2001) eine sog. lexikalische M ESOSTRUKTUR anzunehmen, welche die paradigmatischen Relationen zwischen sinnrelational aufeinander bezogenen lexikalischen Einheiten expliziert. Diese Mesostruktur ist auch für Lexikonmodelle, die mit Objekthierarchien und Defaulthierarchien arbeiten, sehr hilfreich, da sie generalisierende Elemente in einer wörterbuchumspannenden Verweisstruktur zusammenfasst.

1.5 Wörterbuchstrukturen in lexikalischen Informationssystemen Wir haben uns exemplarisch Mikrostrukturen angeschaut und eine Vorstellung davon bekommen, wie heterogen Wörterbücher sind und wie sie in unterschiedlicher Weise das potenziell zur Verfügung stehende Informationsprogramm in Form von abstrakten Mikrostrukturen realisieren. Wir werden im Folgenden das System elexiko7 , das am Institut für deutsche Sprache (IDS) entwickelt wird, vorstellen. Hier steht ein umfassendes lexikalisches Informationsprogramm im Hintergrund, aus dem verschiedene abstrakte Informationsstrukturen abgeleitet werden können. Elektronische Wörterbücher in der Art von elexiko werden auch L EXIKALISCHE I NFOR MATIONSSYSTEME genannt. Im Anschluss daran werden wir das Digitale Wörterbuch der deutschen Sprache8 vorstellen, das ebenfalls als lexikalisches Informationssystem betrachtet werden kann. Der Vergleich beider Systeme wird zeigen, was beim heutigen Stand der Technik im Bereich der lexikalischen Informationssysteme möglich ist. elexiko In elexiko werden die lexikalischen Informationen, welche die Mikrostrukturen instantiieren, zum größten Teil von Hand auf Grundlage sorgfältiger 7 8

www.elexiko.de, vgl. Haß (2005). http://www.dwds.de/, vgl. Geyken (2005).

86

Wörterbuchstrukturen

Korpusanalysen erstellt oder zumindest verifiziert. Beim Ausfüllen der Mikrostrukturen werden zwei Strategien verfolgt: •

HORIZONTAL : Es wird eine minimale Menge von Angaben für alle Stichwörter der Stichwortliste erstellt. Die Stichwortliste enthält ca. 300 000 Elemente. Sie wurde auf der Basis der IDS-Korpora erstellt9 . • VERTIKAL: Zu wenigen Einträgen wird nahezu das ganze Informationsprogramm erstellt. Zurzeit trifft dies tatsächlich nur für ein paar Hundert Einträge zu.

Diese doppelte Herangehensweise, bei der auch die Arbeitsergebnisse anderer lexikographischer Projekte am Institut für deutsche Sprache einbezogen werden, wird durch die mehrschichtige Architektur von elexiko ermöglicht: • Auf der Datenspeicherungsebene wird ein Datenbankmanagementsystem verwendet. Dies ist zur Zeit ORACLE10 . • Auf der konzeptuellen Ebene werden die abstrakten Mikrostrukturen durch Dokumenttypdefinitionen beschrieben. Diese legen das Format von XMLannotierten Dokumenten fest, und jeder Wörterbuchartikel kann als solches XML-annotiertes Dokument betrachtet werden11 . • Aus den Elementen der Mikrostruktur kann auf der Präsentationsebene für jeden Benutzertyp oder jede Benutzungssituation eine konkrete Artikelstruktur aufgebaut werden. Die Artikelstruktur kann während der Konsultation verändert werden, durch Ausblenden oder Einblenden von Angaben. Das elexiko zugrunde liegende Hypertextsystem erschließt die benötigte Information aus einer Datenbank und macht sie im WWW verfügbar. Zu diesen Informationen gehören: • Schreibung und Worttrennung. Diese werden vom Institut für deutsche Sprache selbst erstellt bzw. kontrolliert. • Morphologische Angaben. Hier wird, wenn diese nicht von den Lexikographinnen selber spezifiziert wurden, auf das morphologische Informationssystem von Canoo12 verwiesen. • Syntaktische, semantische und pragmatische Angaben. Diese sind zur Zeit nur für die „vertikal“ bearbeiteten Artikel verfügbar. Sie sind vollständig an Korpora überprüft und wenn möglich mit Korpusbelegen versehen (ein Beispiel wird in Abbildungen 8 und 9 gezeigt).

9 10 11 12

Vgl. Schnörch (2005). Ein Teil der Lemmastrecke ist in Abbildung 7 dargstellt. Vgl. für die folgende Darstellung Müller-Spitzer (2005). Zu XML und DTDs siehe Abschnitt 3. S. www.canoo.net.

Wörterbuchstrukturen

87

Abbildung 7: elexiko – ein Teil der Lemmastrecke Hängt beim Printwörterbuch die Auswahl des Mikrostrukturenprogramms vom jeweiligen Adressatenkreis ab, so ist bei dem beschriebenen Hypertextsystem keine solche Ausrichtung vorhanden; vielmehr wird beim Aufbau der Präsentationsform auf das Repertoire der enthaltenen Elemente zugegriffen und so die jeweilig geeignete Mikrostruktur zusammengestellt. Eine Schnittstelle für die Benutzer benötigt also zur Abdeckung aller möglicherweise auftretenden Adressatenprofile ein lexikographisches Maximalprogramm, das außerdem stets überarbeitet und ergänzt werden können muss.

88

Wörterbuchstrukturen

Abbildung 8: elexiko – Lesartenübergreifende Informationen des gut ausgebauten Artikels zum Stichwort Service

Abbildung 9: elexiko – Informationen zu einer Lesart des Stichworts Service. Die Informationen sind auf „Karteikarten“ verteilt. Korpusbelege werden von Hand den Lesarten zugeordnet. Laut Auskunft der Autoren umfasst das maximale Informationsprogramm der Mikrostruktur mehrere Hundert Angabetypen. Naturgemäß sind nicht alle Angaben realisiert, selbt bei den vertikal bearbeiteten Artikeln nicht.

Wörterbuchstrukturen

89

Die Anforderungen, welche die Formulierung eines derart umfassenden Mikrostrukturenprogramms ermöglichen, liegen in formaler Eindeutigkeit und logischer Konsistenz, die in einem interaktiven Prozess von Linguisten, Lexikographen und Informatikern hergestellt und gesichert werden. Deshalb ist die durch die Dokumenttypdefinitionen festgelegte konzeptuelle Struktur des Wörterbuchartikels auch ständiger Veränderung unterworfen, was hohe Anforderungen an die Werkzeuge für die Erstellung von Einträgen und an die Methoden zur Erstellung von Benutzersichten stellt. Nimmt die traditionelle Metalexikographie für jeden Lemmazeichentyp je eine spezifische abstrakte Mikrostruktur an, so ist die Existenz mehrerer paralleler Strukturen für eine generische Artikelstruktur problematisch. Diese kann besser durch eine unikale polyfunktionale in sich modular gegliederte Mikrostruktur erfasst werden, die alle spezifischen Artikelpositionen und Informationsarten für unterschiedliche Lemmatypen, aber auch unter unterschiedlichen Bearbeitungsschwerpunkten (Kollokationen oder Neologismen) enthält. Der modular-hierarchische Charakter der Mikrostruktur bleibt dabei erhalten; gewisse Informationstypen sind von anderen abhängig, etwa die Flexionsmerkmale von der Wortart. Die grundlegende Einheit als „Träger“ einer Mikrostruktur ist nicht das Lemma oder Lexem, sondern die LEXIKALISCHE E INHEIT (‚lexical unit‘), ein lexikalischer Form-Bedeutungs-Komplex. Der Zusammenhang von polysemen lexikalischen Einheiten in einem Lexem muss dann eigens spezifiziert werden. Nicht ganz einfach ist die Benennung der Felder – sie sollte linguistisch motiviert sein, aber auch nicht zu Missverständnissen bei linguistischen Laien führen. In elexiko wurde das Problem so gelöst, dass Sichten für den linguistischen Laien und für den linguistischen Experten definiert werden können, wobei sich vor allem das lexikographische Beschreibungsvokabular, aber auch die Explizitheit der Angaben in beiden Sichten unterscheidet13 . Die Navigationsstrukturen, die Teil des Informationssystems sind und wahrscheinlich eher der Makrostruktur als der Mikrostruktur zuzurechnen sind, müssen noch daraufhin evaluiert werden, wie sie den Benutzern und ihren Informationsbedürfnissen entgegenkommen. Hierzu gehören auch die Mächtigkeit und die Funktionen der Suchmaschine, die einen gezielten Zugriff auf einzelne Artikel ermöglicht. Wir halten insgesamt die folgenden Punkte für das lexikalische Hypertextsystem elexiko fest: • Fixe Mikrostrukturen für Lemmata werden aufgegeben zugunsten eines modularen Systems zur Erzeugung dynamischer Mikrostrukturen für 13

Vgl. Müller-Spitzer (2005), S. 46-50.

90

Wörterbuchstrukturen

Lesarten, das auf ein adressatenunabhängiges lexikographisches Vollprogramm zugreifen kann. • Die lineare Struktur eines traditionellen Wörterbuchs wird durch eine hypertextuelle, verlinkte Struktur ersetzt. Dadurch ist mehr Eigeninitiative und Auswahl bei der Informationsrecherche möglich. • Die Repräsentation der Mikrostrukturprogramme in einer Reihe von Dokumenttypdefinitionen gestattet eine datenbankunabhängige Modellierung und sorgt für die Nachhaltigkeit der im Projekt aufgebauten Wissensstrukturen. • Neben dem Verzicht auf eine konkrete Ausrichtung, die für traditionelle Wörterbücher unerlässlich ist, wird auch der traditionelle Term des Lemmas, Lexems oder Lexikoneintrags aufgebrochen. Elementare Einheit ist nun die Lesart oder Lexical unit14 . Digitales Wörterbuch der deutschen Sprache Einen gänzlich anderen Weg beschreitet das Projekt Digitales Wörterbuch der deutschen Sprache. Grundlage des Informationssystems ist eine digitalisierte Version des Wörterbuchs der deutschen Gegenwartssprache (WDG)15 . Das Informationsprogramm ist damit zunächst durch die Daten dieses Wörterbuchs vorgegeben. Tatsächlich werden den Benutzern die Artikel dieses Wörterbuchs zu einem angefragten Stichwort präsentiert, mit geringer Anpassung des Layouts (s. Abbildung 10). Die Abhängigkeit des Informationssystems vom WDG hat die folgenden Konsequenzen: • Es wird kein eigenständiges Informationsprogramm entwickelt. Das Informationsprogramm des WDG wird lediglich um einige Angabetypen erweitert (s. unten). • Die Angaben im WDG sind z.T. veraltet. So wird die lexikalische Einheit Service – im Sinne von /Dienst, Bedienung/ – als „Neulexem“ bezeichnet. Neuere Wörter wie Flyer oder Engine fehlen. Das Informationsprogramm des WDG wird um folgende, automatisch aus Korpora extrahierten Angaben erweitert: • Belegbeispielangaben zum Stichwort (allerdings nicht auf eine bestimmte Lesart bezogen); • Angaben zu Kollokanten zum Stichwort; • Angaben zu lexikalisch-semantischen Relationen.

14

15

Gelegentlich, z.B. im Kontext des PAROLE Projekts, wird auch der Ausdruck S EMANTIC UNIT verwendet, vgl. Calzolari et al. (2004). Vgl. Klappenbach (1965).

Wörterbuchstrukturen

91

Abbildung 10: DWDS – Artikel zum Stichwort Service aus dem WDG, das Bestandteil dieses Informationssystems ist Die automatisch generierten Daten genügen sicher nicht lexikographischen Ansprüchen, sie helfen aber dem kundigen Benutzer, einige Fragen zu beantworten (s. Abbildungen 11, 12 und 13). Eine systematische Evaluierung dieser Aspekte ist uns allerdings nicht bekannt.

Abbildung 11: DWDS – Lexikalisch-semantische Relationen zum Stichwort Service

92

Wörterbuchstrukturen

Abbildung 12: DWDS – Kollokationsgraph zum Stichwort Handeln Lexikalische Informationssysteme – Ein Vergleich Nach einem Vergleich beider Systeme sehen wir erhebliche Vorteile bei einer Herangehensweise, bei der zunächst ein abstraktes Informationsprogramm für Wörterbuchartikel definiert und formal beschrieben wird, wie dies bei elexiko der Fall ist16 . Unseres Erachtens spricht nichts gegen die Übernahmen von Daten aus anderen lexikalischen Ressourcen, etwa maschinenlesbaren Wörterbüchern wie dem WDG. Die Daten müssen aber auf das Lexikonmodell, also das Informationsprogramm des lexikalischen Informationssystems zugeschnitten werden. Sie sollten außerdem auf ihre Korrektheit und Aktualität geprüft werden. Eine interessante dynamische Bereicherung des Informationsprogramms ist es, wenn automatisch aus Korpora gewonnene Informationen einbezogen werden. Selbst wenn diese Daten nicht den Qualitätsstandards lexikographischer Angaben genügen, kann der kundige Benutzer durch Interpretation dieser Daten für ihn wertvolle Informationen erschließen (s. Abbildungen 11, 12 und 13). Dies erscheint uns eine sinnvolle Alternative zur zeit- und kostenaufwändigen Erstellung einer hinreichend großen Zahl von Angaben zu einer 16

Vgl. hierzu auch Kapitel 10 in diesem Buch.

Wörterbuchstrukturen

93

Abbildung 13: DWDS – Kollokationsgraph zum Stichwort Tun. Ein geübter Benutzer kann aus den Kollokationsgraphen in der letzten und dieser Abbildung erschließen, dass die Verwendung des Wortes Tun mit negativen Konnotationen verbunden ist, die Verwendung des Wortes Handeln aber mit positiven Konnotationen. hinreichend großen Anzahl von Stichwörtern. Letztendlich entzieht sich das elexiko-System bisher einer benutzungsbezogenen Evaluation dadurch, dass nur zu einer verschwindend kleinen Zahl von Stichwörtern ein angemessener Teil des Informationsprogramms realisiert wurde. Auf der Grundlage eines kooperativ erstellten Lexikonmodells erscheint uns deshalb eine angemessene Akquisitionsstrategie zu sein: • Angaben aus anderen lexikalischen Ressourcen, vor allem maschinenlesbaren Wörterbüchern, zu übernehmen, wenn diese geprüft wurden und in das Lexikonmodell passen; • Angaben aus Korpora automatisch zu generieren; • Angaben, die nicht auf den ersten beiden Wegen generiert werden können, manuell zu erstellen.

2 Parsing von Wörterbuchartikeln 2.1 Einleitung Die Grundidee des Wörterbuchparsing ist es, das in Wörterbüchern vorhandene lexikalische Wissen für sprachtechnologische Anwendungen zu erschließen. Dazu müssen die funktionalen Textsegmente durch Segmentierung der Artikel erkannt und das in ihnen enthaltene Wissen in das Lexikonmodell der lexikalischen Ressource (lexikalische Datenbank o.Ä.) eingeordnet werden. Beim PARSEN von Wörterbucheinträgen wird das Satzband eines Printwörterbuchs automatisch in ein Format überführt, das die Struktur der Wörterbuchartikel explizit und hierarchisch repräsentiert. Dabei wird der Input des Satzbandes syntaktisch analysiert, und es wird eine digitale Repräsentation des Wörterbuchtextes erzeugt, auf dessen Teile dann z.B. bei sprachtechnologischen Anwendungen zugegriffen werden kann. Die Strukturanalyse und -zuweisung einer Eingabekette muss auf einen Grammatikformalismus als Regelwerk zurückgreifen. In den Anfängen des Wörterbuchparsings wurde die zugrunde liegende Grammatik an den Artikelstrukturen (abstrakten Mikrostrukturen) eines bestimmten Wörterbuches orientiert. Zunehmend aber wurde es wichtig, Grammatiken für Parser zu entwickeln, die die Strukturen diverser Wörterbücher beschreiben (vgl. Neff und Boguraev (1990)). Was muss nun eine Parsergrammatik für die adäquate Strukturierung von Wörterbuchtexten leisten? 1. Wörterbuchartikelgrammatiken definieren Wohlgeformtheitsbedingungen für Wörterbucheinträge und deren Konstituenten. Wörterbuchstrukturen, die nicht durch die Grammatik lizenziert sind, werden als nicht wohlgeformt ausgemustert und markiert. 2. Der Parser überprüft damit ebenso die Konsistenz der Wörterbuchkodierung, zum Beispiel auch für zukünftige Ausgaben eines Wörterbuches. 3. Der verwendete Grammatikformalismus sollte einfach und leicht adaptierbar sein (etwa um Änderungen in der Artikelstruktur reflektieren zu können). Im Folgenden wird das LexParse System beschrieben, das von Ralf Hauser im Rahmen des ELWIS-Projektes an der Universität Tübingen entwickelt wurde (vgl. Feldweg et al. (1993)). Mit LexParse wurden u.a. Teile des Duden Stilwörterbuchs und des Duden Bedeutungswörterbuchs geparst. Außerdem ist mithilfe von LexParse am Seminar für Sprachwissenschaft das maschinenlesbare HarperCollins Wörterbuch Deutsch-Englisch in eine strukturannotierte, digitale Version überführt worden. LexParse eignet sich übrigens auch zum Parsen wörterbuchähnlicher Referenzwerke wie Bibliographien und Enzyklopädien.

Wörterbuchstrukturen

95

Zur Benennung der funktionalen Textsegmente standardisierter Wörterbuchartikel und zur Wörterbuchgrammatikentwicklung ist die in Abschnitt 1 vorgestellte Theorie Wiegands zugrunde gelegt worden, die die wesentlichen strukturellen Eigenschaften von Wörterbuchtexten erfasst: • Wörterbuchartikelgrammatiken definieren Wohlgeformtheitsbedingungen für den Zugriff auf die Ordnungsstrukturen, d.h. Mikro- und Makrostruktur, durch den Parser; • Wörterbucheinträge fungieren als Basiseinheiten. Sie werden durch ein Lemmazeichen eingeleitet; • für nischenalphabetische Ordnung werden Untereinträge geclustert (innerhalb eines Eintrags); • für nestalphabetische Ordnung muss darüber hinaus die strikt-alphabetische Reihenfolge durchbrochen werden. Es werden zwei Arten von Relationen unterschieden, die zusammen die hierarchische Mikrostruktur von Wörterbucheinträgen determinieren: 1.

PARTITIVE R ELATIONEN , welche auf der Menge der Angabeklassen definiert sind und die partitive Mikrostruktur bestimmen. So trennt z.B. eine partitive Relation den Formkommentar (FK) mit all seinen Angaben vom semantischen Kommentar (SK), eine weitere partitive Relation unterteilt den semantischen Kommentar ggf. in semantische Subkommentare. 2. P RÄZEDENZRELATIONEN, welche auf der Menge elementarer, d.h. terminaler Angaben definiert sind und die Abfolge in der Mikrostruktur festlegen (z.B. kann durch eine Präzedenzrelation festgelegt werden, dass der Formkommentar dem semantischen Kommentar vorausgeht).

Hierarchische Mikrostrukturen können als eine kontextfreie Wörterbuchartikelgrammatik WAG = CEI, CNI, R, WA beschrieben werden mit 1. CEI, dem terminalen Alphabet von WAG, als Menge der Klassen der elementaren Angaben (z.B. WA, WAA, vgl. Abschnitt 1.3); 2. CNI, der Menge der nicht-terminalen Symbole von DG, als Menge der Klassen der nicht-elementaren Angaben (z.B. FK und SK); 3. R, der Menge der kontextfreien Ersetzungsregeln; 4. WA (=Wörterbuchartikel), dem initialen Symbol der Grammatik. WA ist ein Element aus der Menge CNI. Die Strukturanzeiger, die zur Erkennung der Wörterbuchform verwendet werden, unterteilen sich in nicht-typographische (wie Klammern und Punktzeichen) und typographische Strukturanzeiger (Font und Typeface), die keine eigentlichen Textsegmente, sondern Attribute von Segmenten wie Angaben darstellen. Sie steuern die initiale Segmentierung des Wörterbuchartikels in funktionale Textsegmente.

96

Wörterbuchstrukturen

Aufbau und Design der modularen LexParse-Architektur werden im nächsten Abschnitt ebenso beschrieben wie die Interaktion der einzelnen Module. In Abschnitt 2.3 dieses Kapitels werden Auszüge aus der Grammatik und ein geparster Musterartikel vorgestellt. LexParse ist in C++ implementiert und kann beim Seminar für Sprachwissenschaft der Universität Tübingen angefordert werden17 . Sowohl beim Parsen syntaktischer Strukturen natürlicher Sprache als auch beim Parsen von Wörterbucheintragsstrukturen werden jeweilig dem in Textsegmente unterteilten Inputstring unter Rückgriff auf eine Grammatik automatisch hierarchische Strukturen zugewiesen. Trotz dieser Ähnlichkeit gibt es zwischen Syntaxparsing und Wörterbuchparsing erhebliche Unterschiede: • Beim Parsen von Sätzen spielt die Rekursion von Strukturen, also die Wiederholung einer übergeordneten durch eine eingebettete Struktur – etwa in Adjektivphrasen oder Nebensätzen – eine wichtige Rolle; beim Wörterbuchparsing ist dagegen die Iteration von Angaben eines bestimmten Angabentyps (etwa mehrere Beispielsätze im Beispielfeld) das vorherrschende Strukturmerkmal; Rekursion im Wörterbucheintrag ist nur bei Nischen und Nestern gegeben, wenn die Struktur eines Untereintrags mit der Struktur des Haupteintrags identisch ist. • Ein syntaktischer Parser konsultiert in der Regel ein Lexikon, um den vorkommenden terminalen Elementen (Wörtern) syntaktische Kategorien zuzuweisen. Ein Pendant hierzu, also ein Lexikon für den Wörterbuchparser, das in Bezug auf die unrestringierten Definitions- oder Beispielangaben alle möglichen Auftretensfälle abdeckt, gibt es nicht. Es können lediglich die möglichen Werte für gewisse geschlossene Angabeklassen eingeschränkt werden, etwa für die Genusangabe bei Substantiven. • Die beim Syntaxparsing vorherrschende strukturelle und lexikalische Ambiguität, die ein immenses Problem für diese Art von Parsern darstellt, hat keine Entsprechung im Parsen von Wörterbucheinträgen. Wörterbuchartikel haben eine festgelegte Mikrostruktur, die sich meist eindeutig interpretieren lässt. Dafür gibt es beim Wörterbuchparsen Ambiguität hinsichtlich der Struktur-Anzeiger (structural indicators, SI), die in mehrfacher Funktion auftreten können, etwa der Slash (/) als Trennungszeichen zwischen lexikalischen Varianten oder als Einbettungszeichen für eine pragmatischsemantische Angabe. Zeichen, die im Artikel ausschließlich als Strukturanzeiger auftreten, werden DEFINITE S TRUKTURANZEIGER genannt. Die Ambiguität kann einfach aufgelöst werden, wenn die Funktionsvarianten in unterscheidbaren kontextuellen Umgebungen auftreten. Wenn der Kontext nicht ausreicht, um die Funktion des Strukturanzeigers zu bestimmen, 17

http://www.sfs.uni-tuebingen.de/de_nf_asc_resources.shtml.

Wörterbuchstrukturen

97

ist die Fehleranfälligkeit natürlich höher. Verwendete Symbole wie der Doppelpunkt im Duden-Stilwörterbuch können ebenfalls ambig sein und entweder eine strukturell signifikante Rolle spielen oder aber auch als unspezifisches Zeichen (ohne strukturelle Funktion) in einem Beispielsatz auftreten. Diese zweite Art von Ambiguität gilt in Bezug auf sog. indefinite Strukturanzeiger. • Der Wörterbuchparser muss mit beiden Arten von Ambiguitäten umgehen können, da die Erkennung der Artikelstruktur von der korrekten Interpretation der Strukturanzeiger abhängig ist. Vor allem die falsche Interpretation der indefiniten Strukturanzeiger führt zu falschen Segmentierungen und inadäquaten Analyseergebnissen. Außer der automatischen Erkennung und korrekten Interpretation der Strukturanzeiger sollte ein Wörterbuchparser den folgenden Anforderungen genügen, um den Konvertierungsprozess vom Satzband in lexikalische Datenbanken zu gewährleisten: • Der verwendete Grammatikformalismus muss mit Fonts, typographischen Markern und Zählmechanismen zurechtkommen, die durch kontextfreie Grammatiken nicht behandelt werden können. • Der Formalismus muss die für die hierarchische Mikrostruktur typische Iteration behandeln können, was durch rekursive Regeln nicht angemessen geleistet wird. • Ein einfacher Grammatikformalismus sollte den Aufbau eigener Wörterbuchgrammatiken für den Nutzer ermöglichen. • Das Format der Parsingbäume sollte durch den Nutzer konfigurierbar sein, hierarchische Attribut-Wert-Strukturen abbilden und annotierte Strukturen in XML als Zwischenausgabe für die Konvertierung in andere Formate erzeugen. • Der Parser sollte spezielle Funktionen und Protokolldateien vorsehen, um die Entwicklung und das Debuggen von Wörterbucheintragsgrammatiken zu unterstützen. • Alle Einstellungen und Optionen beim Parsen müssen permanent speicherbar sein, um darauf folgende Parsingvorgänge leichter handhabbar zu machen. • Die Implementierung des Programms sollte möglichst plattformneutral sein.

2.2 Die Architektur von LexParse Das LexParse System (vgl. Abbildung 14), das aus der Konfigurationsdatei und dem auszuführenden Programm besteht, ist modular aufgebaut:

98

Wörterbuchstrukturen

• Die M AIN F UNCTION initialisiert alle Datenstrukturen und übernimmt die Programmeinstellungen. Hier befindet sich auch der ‚Main Loop‘ für das Wörterbuchartikelparsen; • Die PARSING E NGINE besteht aus drei unterschiedlichen Komponenten, dem Preprocessor, dem Scanner und dem eigentlichen Parser. • Die O UTPUT F UNCTION zeigt den Ergebnisbaum in verschiedenen benutzerdefinierten Formaten; hier können auch textuelle Konversionen der Terminalknoten des Parsebaums vorgenommen werden. Im Folgenden sollen die verschiedenen Module kurz charakterisiert werden: • Die KONFIGURATIONSDATEI ist eine ASCII Textdatei, die alle wichtigen Einstellungen, Befehle und die Wörterbucheintragsgrammatik enthält, und bei Bedarf in verschiedene Dateien aufgeteilt werden kann, etwa zur Trennung allgemeiner Einstellungen von wörterbuchspezifischen Einstellungen. LexParse liest und interpretiert die Konfigurationsdatei und überprüft die Grammatik und alle Einstellungen nach Vollständigkeit. Sind keine Fehler aufgetreten, kann das festgelegte Inputfile für das Parsing geöffnet werden. • Der P REPROCESSOR liest das Inputfile und konvertiert Satzband-spezifische Formatsequenzen und Kontrollkodes in ein unabhängiges Format. • Der S CANNER segmentiert die Sequenzen aus dem Preprocessor in T O KEN , d.h. funktionale Textsegmente oder Strukturanzeiger. • Diese Token werden vom PARSER anhand der Wörterbucheintragsgrammatik auf entsprechende Parsebäume abgebildet. • Der P OSTPROCESSOR nimmt kontextuelle Konversionen der Terminalknoten des Parsebaumes vor, etwa die Konversion von Umlauten. Die Bäume werden vom Programm in den benutzerdefinierten Einstellungen repräsentiert; nicht wohlgeformte Strukturen werden im größeren Kontext dargestellt. • Die verschiedenen Verarbeitungsstufen werden in den jeweiligen Logfiles protokolliert. • Ein Statusreport gibt Aufschluss über die Anzahl korrekter und inkorrekter Einträge sowie die Dauer des Parsings. In LexParse werden zwei verschiedene Arten von Token unterschieden, X CO DE TOKENS und L ITERAL TOKENS : Xcodes sind vordefinierte Symbole zur Repräsentation der Strukturanzeiger, während Literals Zeichenketten (Wort, Zahl oder Satzzeichen) darstellen. Die Tokenisierung wird durch verschiedene Wortgrenzen, Interpunktionszeichen und Xcodes geleitet. Es ist wichtig zu verstehen, dass die Unterscheidung von Xcodes und Literals elementar für das LexParse System ist. Die Xcodes helfen bei der Disambiguierung der Strukturanzeiger; alle Token, denen keine Xcodes zugewiesen werden, behandelt LexParse als Literals. Weiter ist die Erkennung des Schrifttyps

Wörterbuchstrukturen

99

bzw. die Veränderung des Fonts oder Schrifttyps (etwa der Übergang von Kursiv- zu Fettdruck) eine wesentliche Voraussetzung für das Parsen von Satzbändern. Typographische Eigenschaften und Veränderungen werden entsprechenden Xcodes zugewiesen. Schrifttypveränderungen werden mit grammatischen Regeln, die allerdings nicht kontextfrei sind, hergeleitet.

Abbildung 14: Architektur von LexParse

2.3 Eine Beispielgrammatik Die folgende Beispielgrammatik beschreibt ein Fragment des Duden Stilwörterbuchs18 . Zur Veranschaulichung präsentieren wir außerdem einen passenden, wohlgeformten Beispieleintrag aus diesem Wörterbuch und den aus der Analyse resultierenden Strukturbaum. [PreProcess] ChangeRep = " } } $ " -> " " ; end-of-line marker ; begin of a lemma and boldface Change = "òT2ûò5û" -> "#XFLBE# #XFTxb#" 18

Vgl. Drosdowski (1988).

100

Wörterbuchstrukturen

DeleteRep = "} - }$" ; hyphen Delete = "òvr10û" ; italic correction [Scanner] AddLetters = "äöüÄÖÜß" XPSEM = " ; " XPCOL = " : " XFLEN = "æ" ; control codes for typefaces ( ’Settings: TypefaceStates’) XFTst = "ò1û" XFTit = "ò2û" XFTbo = "ò3û" XFTxb = "ò5û" [Parser] Start = WA IndentLog = On RecoverCounterError = Yes ExpandAbbrev = LZGA SkipCriticalIsError = Yes [Grammar] ;--- Wörterbuchartikel WA -> XFLBE; FK; SK; XFLEN | WA_Err. ; error handler WA_Err -> * XFLEN @. ; error handler ;--- Formkommentar FK -> LZGA [ GrA ] XPCOL | FK_Err. ; error handler FK_Err -> * XPCOL @. ; error handler LZGA -> XFTxb: $ [ ","^ ]. ; Lemmazeichengestaltangabe GrA -> GA. ; Grammatische Angabe GA -> XFTst: { "der", "die", "das" }. ;--- Semantischer Kommentar SK -> < PAA, PragSemA, BeiGA >. ;--- Typen von Polysemieangaben PAA -> XFTbo: %1, ".", %Ra. ; Polysemieangabe (arabisch) ;--- Pragmatisch Semantische Angabe PragSemA-> BPA.

Wörterbuchstrukturen

101

;--- Bedeutungsangaben BPA -> XFTit: * XPCOL ;--- Beispielgruppenangabe BeiGA -> BeiA < XPSEM, BeiA > [ "." ]. ;--- Beispielangabe BeiA -> XPCOL: ; no XCodes XPCOL herein! XFTst: $$. [Labels] WA = "Wörterbuchartikel" WA_Err = "Fehler in Wörterbuchartikel" FK = "Formkommentar" FK_Err = "Fehler in Formkommentar" LZGA = "Lemmazeichengestaltangabe" GA = "Genusangabe" GrA = "Grammatische Angabe" SK = "Semantischer Kommentar" PAA = "Polysemieangabe (arabisch)" PragSemA = "Pragmatisch-Semantische Angabe" BPA = "Bedeutungsparaphrasenangabe" BeiGA = "Beispielgruppenangabe" BeiA = " Beispielangabe" Der folgende Eintrag für das Stichwort Treffen stammt aus dem Duden Stilwörterbuch: Treffen, das: 1. Zusammenkunft, Begegnung: regelmäßige, seltene T.: ein T. der Abiturienten; ein T. der Außenminister; ein T. verabreden, veranstalten; an einem T. teilnehmen; zu einem T. kommen. 2. (milit. veraltet) Gefecht: frische Truppen ins T. führen;. 3. (Sport) Wettkampf ein faires, spannendes T.; das T. endete unentschieden; sie konnte das T. für sich entscheiden. * (geh.): etwas ins Treffen führen (etwas als Argument vorbringen).

Im Folgenden zeigen wir den Strukturbaum, der das Ergebnis der Analyse des oben gezeigten Wörterbuchartikels durch LexParse ist. WA - Wörterbuchartikel +--> FK - Formkommentar | +--> LZGA - Lemmazeichengestaltangabe "Treffen" | +--> GrA - Grammatische Angabe | +--> GA - Genusangabe "das" +--> SK - Semantischer Kommentar | +--> SSK1 - Semantischer Subkommentar 1. Stufe | | +--> PAA - Polysemieangabe (arabisch) "1." | | +--> PragSemA - Pragmatisch-Semantische

102

Wörterbuchstrukturen

| |

| |

| |

| |

|

|

|

|

|

|

|

|

| | | | | | |

| |

| | | | | |

Angabe +--> BA - Bedeutungsangabe +--> BPA - Bedeutungsparaphrasenangabe "Zusammenkunft, Begegnung" +--> BeiGA - Beispielgruppenangabe +--> BeiA -Beispielangabe "regelmäßige, seltene Treffen" +--> BeiA -Beispielangabe "ein Treffen der Abiturienten" +--> BeiA -Beispielangabe "ein Treffen der Außenminister" +--> BeiA -Beispielangabe "ein Treffen verabreden, | |

+--> BeiA -Beispielangabe "an einem Treffen teilnehmen" | +--> BeiA -Beispielangabe "zu einem Treffen kommen" +--> SSK1 - Semantischer Subkommentar 1. Stufe | +--> PAA -Polysemieangabe (arabisch ) "2." | +--> PragSemA - Pragmatisch-Semantische Angabe | | +--> PragA - Pragmatische Angabe "militär. veraltet" | | +--> BA - Bedeutungsangabe | | +--> BPA - Bedeutungsparaphrasenangabe "Gefecht" | +--> BeiGA - Beispielgruppenangabe | +--> BeiA - Beispielangabe "frische Truppen ins Treffen führen" +--> SSK1 - Semantischer Subkommentar 1. Stufe +--> PAA - Polysemieangabe (arabisch) "3." +--> PragSemA - Pragmatisch-Semantische Angabe | +--> PragA - Pragmatische Angabe "Sport" | +--> BA - Bedeutungsangabe | +--> BPA - Bedeutungsparaphrasenangabe

Wörterbuchstrukturen

103

"Wettkampf" +--> BeiGA - Beispielgruppenangabe +--> BeiA - Beispielangabe "ein faires, spannendes Treffen" | +--> BeiA - Beispielangabe "das Treffen endete unentschieden" | +--> BeiA - Beispielangabe "sie konnte das Treffen für sich entscheiden" +--> PKP - Postkommentar zur Phraseologie +--> SKP - Subkommentar zur Phraseologie +--> PhrasA - Phrasemangabe "etwas ins Treffen führen" +--> KPB - Kommentar zur Phrasembedeutung +--> PBA - Phrasembedeutungsangabe "etwas als Argument vorbringen" | |

2.4 Extraktion von semantischen Angaben aus maschinenlesbaren Wörterbüchern Einleitung Ein beliebtes maschinenlesbares Wörterbuch aus dem angelsächsischen Raum war und ist das Longman Dictionary of Contemporary English (LDOCE). Der Verlag stellte schon bald nach dem Erscheinen 1978 die Satzbänder der ersten Auflage dieses Wörterbuchs der computerlinguistischen Forschung zur Verfügung. Zu dieser Zeit setzte sich in der Computerlinguistik die Erkenntnis durch, dass sprachtechnologische Anwendungen realer Größe ohne lexikalische Ressourcen mit hoher Abdeckung des Wortschatzes nicht realisierbar sind. Aus der Konvergenz der Lexikographie, vor allem des Longman Verlags, und der Computerlinguistik entstand das vor allem in den achtziger und neunziger Jahren aktive Forschungsfeld, das sich der Analyse, Konversion und Nutzung von lexikographischen Beschreibungen aus digitalisierten Printwörterbüchern widmete. Wir werden in Kapitel 10 eine Bilanz dieser Aktivitäten ziehen. An dieser Stelle wollen wir beispielhaft ein Projekt beschreiben, in dem die semantischen Informationen aus dem Longman Dictionary of Contemporary English19 analysiert und genutzt wurden. Der Ansatz von Piek Vossen et al. (1989) entstand im Umfeld des LINKS Projekts zur Entwicklung einer Datenbank semantischer Beschreibungen, in der Bedeutungsbeschreibungen des LDOCE systematisch verknüpft und gespeichert wurden. Theoretische Grundlage dieser Datenbankentwicklung ist 19

vgl. Procter (1978).

104

Wörterbuchstrukturen

der Ansatz von Simon Dik (1978), ein komponentieller Ansatz der lexikalischen Semantik, der ohne Rückgriff auf metasprachliches Vokabular wie semantische Primitiva auskommt und stattdessen schrittweise lexikalische Bedeutungen auf ein Basisvokabular reduziert. Der Ansatz von Dik passt auch deshalb gut zum analysierten Wörterbuch, weil das LDOCE ein wohldefiniertes und eingeschränktes Vokabular für die Bedeutungsbeschreibungen verwendet. In diesem Projekt wurden folgende Verarbeitungsschritte vorgenommen: • grammatische Kodierung des (restringierten) Definitionsvokabulars und seiner flektierten Formen und automatische Einsetzung dieser Kodierung in alle Bedeutungsbeschreibungen: als Ergebnis entstand ein grammatisch annotiertes Korpus von Bedeutungsbeschreibungen; • Entwicklung einer syntaktischen Typologie für die Strukturen von Bedeutungsbeschreibungen unterschiedlicher Kategorien, z.B. Nomen, Verben, Adjektive: hierbei entstanden für jede der Kategorien Parsergrammatiken, die jeweils helfen, die syntaktischen Strukturen der Bedeutungsbeschreibungen zu identifizieren und in Prä- und Postmodifikatoren sowie Kernels zu segmentieren; • parallel zur syntaktischen Typologie wurde eine semantische Typologie aufgebaut; • beide Typologien wurden in einer relationalen Datenbank verknüpft, um syntagmatische und paradigmatische Verknüpfungen zwischen den Wörtern angemessen zu erfassen, die sinnrelationalen Verbindungen und Eigenschaften abzubilden und dadurch semi-automatische Verfahren im Bereich der Text-und Diskursanalyse zu unterstützen; • die Einträge dieser Datenbank wurden mit der im Satzband der computerlesbaren Version des LDOCE verfügbaren pragmatischen Information über Sachbereichsfelder (Subject Field Codes) und das Sprachregister (Speech Register Codes) verknüpft. Diese Informationen sind hilfreich für den Zugriff auf eine Wortverwendung in einer bestimmten Domäne, z.B. I NSTRUMENT im Bereichsfeld M EDIZIN. Für jeden Eintrag wurden fünf Angaben spezifiziert: LDOCE Subject field code, Box code (mit stilistischer Information), orthographische Form, syntaktische Kategorie (POS-Code) und die Bedeutungsbeschreibung. Auf alle Felder kann einzeln zugegriffen werden. So wird der Eintrag: (3)

‚anaesthetist‘: a doctor who gives an anaesthetic to a patient before he is treated by another doctor

in folgende Teile zerlegt: • subject fields: mdon-

Wörterbuchstrukturen • • • •

105

semantic label: ....h...y. entry (POS): anaesthetist (n) marker (beginning of meaning description): ul UL meaning description: a doctor who gives an anaesthetic to a patient before he is treated by another doctor

Die Bedeutungsbeschreibungen, die aus einem sog. kontrollierten Vokabular mit ca. 2000 Items zusammengesetzt sind, werden mit den entsprechenden POS-Codes versehen, um ein grammatisch getaggtes Korpus von Bedeutungsbeschreibungen zu erhalten, mit dem jeweiligen Kategorienlabel für jedes Wort aus dem verwendeten Definitionsvokabular, wie im folgenden Beispiel: (4)

a [D0] doctor [N0] who [P0] gives [VJ] an [D0] anaesthetic [N01A01XX] to [I0TO] a [D0] patient [A0] before [C0I0] he [P0] is [BJ] treated [VD] by [I0] another [D0P0] doctor [N0]

Die Bedeutungsbeschreibung für Nomen wird auf vier Ebenen vorgenommen: • Wortsequenz: a man who gives • POS Sequenz: Det Noun RelPronoun Verb • Syntaktisches Pattern: [NP[DET a] [N (or KERNEL) man]] [RELCLAUSE who gives] • Semantisches Pattern: Quantor category activity-spec. modifier Die Grundstruktur einer Nominalphrase besteht aus einem (optionalen) Determiner, einer (optionalen) modifizierenden Komponente (P RE -K ERNEL oder P OST-K ERNEL) und einem obligatorischen syntaktischen K ERNEL. Typen nominaler Bedeutungsbeschreibung Wir werden im Folgenden einige Typen der nominalen Bedeutungsbeschreibung darstellen. Diese Typen sind das Ergebnis einer Verallgemeinerung der individuellen Bedeutungsparaphrasen aus dem LDOCE. L INKS: Hier ist der syntaktische Kernel in semantischer Hinsicht ein Hyperonym des Eintragswortes und wird in der Bedeutung von den Prä- und Postmodifikatoren eingeschränkt, z.B.20 :

20

(5)

flamingo: a small tropical water BIRD with long thin legs

(6)

lap dog: a small pet DOG

Die hyperonymischen Substantive werden im Folgenden in Großbuchstaben dargestellt.

106

Wörterbuchstrukturen

S YNONYMS: Hier sind keine Restriktionen oder Modifikatoren notwendig, da die gesamte Information in einem Wort, eben dem Synonym, ausgedrückt wird. Das Synonym kann auch als impliziter Verweis aufgefasst werden, also als Aufforderung, weitere Informationen beim Eintrag des synonymen Wortes zu erschließen. (7)

abbattoir: slaughterhouse

L INKERS: So werden Kernel bezeichnet, die relativ bedeutungsleer sind und auf ein anderes, ebenfalls in der Bedeutungsparaphrase auftauchendes Wort verweisen, für welches an anderer Stelle im Lexikon weitere Informationen zu finden sind. Die Zielwörter dieser Linkers sind in den folgenden Beispielen durch Fettdruck hervorgehoben. (8)

breastplate: a PIECE of armour worn to protect the chest

(9)

arab: a TYPE of fast graceful horse

Auch diese Bedeutungsparaphrasen können als implizite Verweise interpretiert werden. Nicht alle nominalen Bedeutungsbeschreibungen mit einem Kernel, der ein of -Komplement enthält, sind aber als Linker zu betrachten. So gibt es z.B. formal analoge Konstruktionen, in denen der Kernel ähnliche semantische Information wie ein Link trägt: (10)

beef: the MEAT of farm cattle

(11)

lights: the LUNGS of sheep, pigs, etc. used as food

Andere solche of -Komplemente enthaltende Kernel unterscheiden sich von Linkern, indem sie einen Wortklassenwechsel in der Bedeutungsbeschreibung (auf die nicht-nominale Ebene) einleiten und mit Relativsätzen zu paraphrasieren sind. Das sind die so genannten S HUNTER, die ebenfalls wie Linker einen relativ bedeutungsleeren Kernel enthalten: (12)

adornment: the ACT of adorning (‚an act which consists of adorning‘)

(13)

actuality: the STATE of being real (‚a state which consists of being real‘)

Es passen auch Kernels, die von Relativsätzen gefolgt werden, in das ShunterParadigma: (14)

camper: a PERSON who camps

Wörterbuchstrukturen

107

Neben relativ klaren Fällen gibt es auch Probleme der Klassifizierung, weil manche Kernels zwischen Links und Shuntern stehen, wie die folgenden Beispiele zeigen: (15)

acting: the ART of representing a character. esp. on stage or for a film

(16)

admixture: a SUBSTANCE that is added to another in a mixture

Wegen der gleichwertigen Verteilung des semantischen Gehalts werden sie aber als Linker charakterisiert. Außerdem gibt es noch Kernel, die Shuntern ähneln, bei denen aber das „Shunten“ auf den Kernel selbst erfolgt: (17)

advent: the COMING of Christ to the world

(18)

aspiration: the PRONUNCIATION of the letter h

Wir haben am Beispiel der Analyse von Bedeutungsparaphrasen eines Printwörterbuchs gesehen, dass • sich diese Bedeutungsparaphrasen in syntaktische Strukturmuster klassifizieren lassen, wenn diese linguistisch annotiert und diese Annotationen analysiert werden; • aus diesen syntaktischen Strukturmustern unterschiedliche Beziehungen zwischen der paraphrasierten lexikalischen Einheit, dem Kern der Paraphrase sowie weiteren Wörtern der Paraphrase hervorgehen; • sich aus diesen Relationen Beziehungen zwischen lexikalischen Einheiten ableiten, die in etwa den an anderer Stelle beschriebenen sinnrelationalen Beziehungen im Wortschatz einer Sprache entsprechen (vgl. Kapitel 3, Abschnitt 4.2); • dass sich diese Informationen in eine lexikalische Datenbank überführen lassen, wenn das Lexikonmodell, das dieser Ressource zugrunde liegt, die Kodierung von Sinnrelationen vorsieht. Es wird aber im Falle jedes einzelnen Wörterbuchs bzw. Analyseprojekts genau zu untersuchen sein, mit welcher Präzision das Stichwort mit den lexikalischen Einheiten der Bedeutungsparaphrase verbunden werden kann. Zu viele Fehlzuordnungen wirken sich negativ auf das Kosten-Nutzen-Verhältnis einer solchen Analyse aus. Eventuell kann es danach günstiger sein, sinnrelationale Strukturen im Wörterbuch überwiegend händisch zu erstellen. Ein Verfahren wie das hier beschriebene kommt sowieso nur für solche Wörterbücher in Frage, in denen das Verfahren der Bedeutungsparaphrasierung bereits stark formalisiert ist.

3 Kodierung von Wörterbuchartikelstrukturen 3.1 Einführung Kommen lexikalische Ressourcen in sprachtechnologischen Systemen zum Einsatz, so ist es essenziell, dass die in ihnen enthaltenen Informationssegmente eindeutig gekennzeichnet sind. Die Datenfelder, aus denen die Einträge einer lexikalischen Ressource bestehen, sollten außerdem so gekennzeichnet sein, dass Entwickler von Programmen von den Namen der Datenfelder auf ihren Inhalt, also die Art der zur Verfügung stehenden Information, schließen können. Dies gilt besonders dann, wenn die Entwickler einer sprachtechnologischen Anwendung mit den Entwicklern der verwendeten lexikalischen Ressourcen nicht in Kontakt stehen, sondern auf die Konsistenz der Ressource und insbesondere der verwendeten Kennzeichnungen und deren Dokumentation vertrauen müssen. Zur Auszeichnung von Texten und Dokumenten sind sogenannte Markupsprachen entwickelt worden. Die ‚Text Encoding Initiative‘ (TEI)21 , die die Verwendung von Markupsprachen für alle Arten von Dokumenten, auch von Wörterbuchartikeln, standardisiert, sagt hierzu: [...] different documents of the same type can be processed in a uniform way. Programs can be written which take advantage of the knowledge encapsulated in the document structure information [...] (TEI Guidelines, Kapitel 2) Wir werden sehen, wie wichtig die Textauszeichnung mit SGML (S TANDAR DIZED G ENERALIZED M ARK - UP L ANGUAGE) oder XML (E XTENSIBLE M ARK - UP L ANGUAGE) für die Computerlexikographie ist.

3.2 Strukturbeschreibende Auszeichnung Die S TRUKTURBESCHREIBENDE AUSZEICHNUNG ist eine Methode zur Kennzeichnung von Textteilen nach ihrer Funktion für das Textganze. Mit der Auszeichnung der logischen Struktur eines Textes nimmt man bewusst Abstand von der Beschreibung des äußeren Erscheinungsbildes, des Layouts. Struktur und Layout von Texten und ihren Teilen werden auf prinzipielle Weise getrennt. Durch die geschickte Wahl der Namen für die Auszeichnungselemente (engl. TAGS) kann man zudem erreichen, dass aus dem Namen eines Textteils auf dessen Inhalt geschlossen werden kann. Es ist außerdem eine empfehlenswerte Praxis, die Semantik der Namen, die man den Auszeichnungselementen gibt, in einer Dokumentation niederzulegen, um zukünftigen

21

http://www.tei-c.org/Guidelines2/.

Wörterbuchstrukturen

109

Benutzern der Dokumente das Verständnis zu erleichtern bzw. Missverständnisse zu vermeiden. Der Name eines Auszeichnungselements für einen Teil eines Wörterbuchartikels kann sich zum Beispiel an verbreiteten Namenskonventionen oder, sofern vorhanden, an Standards orientieren. Wir werden in Abschnitt 4 dieses Kapitels Konventionen und sich entwickelnde Standards für Wörterbuchartikel und ihre Bestandteile, die Angabeklassen, ausführlich beschreiben. An den dort eingeführten Namenskonventionen kann man die Benennung der Auszeichnungselemente orientieren. Die Struktur eines Dokuments – genauer: einer Klasse gleichartiger Dokumente – wird in einer Dokumenttypdefinition (im Folgenden: DTD) oder in einem Dokumentschema beschrieben. Diese Beschreibung hat die Form einer KONTEXTFREIEN G RAMMATIK . Mit der Bereitstellung einer solchen Dokumentgrammatik ist eine wichtige Voraussetzung für die strukturelle Analyse – das Parsing – der Dokumente, die mit der Beschreibung konform gehen, gegeben22 . Existiert bereits eine DTD, die die zu erstellenden Dokumente in geeigneter Weise spezifiziert, dann kann man beginnen, die Teile des Dokuments mit Tags zu versehen, deren Namen den Element-Namen in der zugrunde liegenden DTD entsprechen müssen. Hierfür gibt es mittlerweile eine Reihe nützlicher Werkzeuge. Im anderen Fall sollte man damit beginnen, die gewünschte(n) Dokumentstruktur(en) zu beschreiben und diese Beschreibung in einer DTD oder einem Schema zu formalisieren (s. unten). Auszeichnungselemente Ein Auszeichnungselement (im Folgenden: TAG) ist ein Kennzeichner, der direkt in den Text eingefügt wird, einen Textteil umschließt – es gibt also ein Anfangstag und ein Endtag – und die Funktion dieses Textteils beschreibt. Das Endtag hat den gleichen Namen wie das Starttag, die Namen beider Tags sind also identisch. Tags werden konventionell in spitze Klammern eingeschlossen, das End-Tag erhält obendrein einen Slash (= / ) vor den Namen. (19)

Sehr geehrte Damen und Herren

Wir sehen an Beispiel (19) ein weiteres Merkmal von Tags. Sie können neben dem Namen auch eine Reihe von ATTRIBUTEN enthalten. Attribute dienen der weiteren Charakterisierung der umschlossenen Textelemente. Das Textelement Grußformel wird in Hinblick auf die Sprache und den Stil charak22

Ein Dokument, das die Produktion eines Strukturbaumes mit dem obersten Element der DTD als Wurzelknoten erlaubt, bezeichnet man als KONFORM mit der gegebenen DTD. Zum Thema Parsing von Wörterbuchartikeln vgl. Abschnitt 2 dieses Kapitels.

110

Wörterbuchstrukturen

terisiert. Eine spezifische Grußformel erhält dann Werte für jedes der beiden Attribute. In unserem Beispiel sind dies Werte für die Attribute Sprache (deutsch) und Stil (unpersönlich). Zur Dokumentation einer DTD gehört auch, dass man die Wertebereiche aller Attribute so genau wie möglich festlegt. Verwendung einer DTD Sie können strukturbeschreibende Auszeichnungen verwenden, wenn Sie einen Text neu erstellen oder wenn Sie einen bereits bestehenden Text nachträglich strukturieren und markieren. • Wenn Sie ein Dokument neu anlegen, dann bestimmen Sie zunächst das Wurzelelement, welches meist den Typ des Dokuments bezeichnet (z.B. Wörterbuch). Sie bestimmen sodann die Art und die Namen der Textelemente, die die Struktur des Textes tragen (die Trägermenge) sowie deren Abfolge. Alles zusammen nennt man das I NHALTSMODELL des Textes. Sie können auch auf eine bereits existierende DTD, die ungefähr Ihr gewünschtes Textmodell wiedergibt, zurückgreifen und ggf. diese DTD anpassen. Wir haben ein Beispiel einer Definition von Wörterbuchartikelstrukturen durch eine DTD in Abschnitt 1.5 beschrieben. Dort werden die Inhaltsmodelle bzw. Mikrostrukturen verschiedener Sorten von Wörterbuchartikeltypen festgelegt. Die RedakteurInnen sind an dieses Schema bzw. diese Schemata gebunden. Es liegt in der Verantwortung der Redaktionsleitung, die in der DTD festgeschriebenen Regeln in der praktischen Arbeit durchzusetzen. Dies kann auch durch den Einsatz geeigneter Tools für die Texterstellung erreicht werden23 . • Wenn Sie ein bereits existierendes Dokument analysieren und nachträglich mit inhaltsbeschreibenden Tags versehen wollen, dann sind Sie auf eine Dokumentation der Textstruktur angewiesen. Vor einer solchen Situation steht man oft als Computerlexikograph, wenn man ein existierendes Printwörterbuch nachträglich digitalisieren will oder muss. Im Idealfall bekommt man Kontakt zu den RedakteurInnen, die das lexikographische Manual, also die Mikrostruktur für die verschiedenen Artikeltypen festgelegt haben. Ist dies nicht der Fall, dann muss man die Struktur der Wörterbuchartikel aus den typographisch meist reich markierten Artikeln rekonstruieren. Das Ergebnis dieser Rekonstruktion wird dann sinnvollerweise in die explizite Form einer Dokumentgrammatik, also einer DTD, gebracht. Diese Arbeit wird natürlich weiter erschwert durch Inkonsistenzen in den uns vorliegenden Daten, wenn z.B. eine als obligatorisch klassifizierte Angabe in einem Artikel fehlt. Bei jeder Abweichung muss man 23

Vgl. Müller-Spitzer (2005).

Wörterbuchstrukturen

111

sich deshalb fragen: Handelt es sich um einen Kodierungsfehler der ausführenden LexikographInnen oder handelt es sich um eine Strukturvariante, die bei der Rekonstruktion der Dokumentstruktur(en) bisher übersehen wurde?

3.3 Ein Beispielartikel Rekonstruktion der Struktur des Wörterbuchartikels Stellen wir uns nun vor, wir hätten die Aufgabe zu erfüllen, die Struktur eines Wörterbuchartikels zu rekonstruieren und diesen Wörterbuchartikel mit strukturbeschreibenden Tags zu versehen. Was wir vorliegen haben, ist ein Text, der aus den üblichen Symbolen des Alphabets der beschriebenen Sprache besteht. Informationen über die Struktur dieses Artikels – genauer: Artikelteils – werden dem Benutzer vor allem durch das verwendete Layout vermittelt. (20)

Gummi 1. n

Gehen wir davon aus, dass der Artikel mit HTML (H YPERTEXT M ARKUP L ANGUAGE), der derzeit am häufigsten verwendeten Auszeichnungssprache für Webdokumente, erstellt wurde, dann sieht der Text „in Wirklichkeit“ so aus: (21)

Gummi 1. n

Wir interpretieren das vorliegende Textsegment wie folgt (bedenken Sie aber, dass dies nicht die einzig mögliche und auch nicht die einzig korrekte Interpretation dieses Textsegments ist): Es handelt sich um den Beginn eines Wörterbuchartikels. Gegenstand des Artikels ist ein sprachliches Zeichen des Deutschen. Dieses sprachliche Zeichen wird hier durch die Lemmazeichengestaltangabe (LZGA) repräsentiert. Der LZGA folgt ein nichttypographischer Strukturanzeiger, eine Ziffer, die offenbar den folgenden Artikel strukturiert. Da das sprachliche Zeichen in dieser Form mit zwei verschiedenen Genera – Maskulinum und Neutrum – in Gebrauch ist, können wir vermuten, dass die Ziffer eine homonyme Lesart einleitet. Der Homonymennummernangabe folgt eine grammatische Angabe, und zwar die des grammatischen Geschlechts (Genus) des beschriebenen sprachlichen Zeichens. Das Genus – Neutrum – wird durch den Buchstaben n signalisiert. Zugleich können wir aus dieser Genusangabe (GA) die Wortartangabe (WA) – nämlich: Substantiv – erschließen. Das Ergebnis der Analyse können wir mithilfe von XML in die folgende Struktur konvertieren:

112

Wörterbuchstrukturen

Gummi Substantiv Neutrum Was wir bisher hierhin geleistet haben, ist: • Wir haben die Beschreibung der logischen Struktur des Artikels vom typographischen Layout, das uns gleichwohl wichtige strukturelle Hinweise lieferte, abgekoppelt; • wir haben diese logische Struktur, die Angabetypen, anhand einer konkreten Instanz rekonstruiert; • wir haben von der textuellen Erscheinung der Angaben abstrahiert. Das n als Kürzel für das Genus ist eine für Printwörterbücher typische Textkompression. Wir verwenden im rekonstruierten Fragment die ausgeschriebene Version des Namens; • wir haben implizite Information – hier die Angabe der Wortart (WA) – explizit gemacht; • wir haben den sequenziellen Ursprungstext in eine hierarchische Form gebracht. So sind die Angaben zu Wortart und Genus als „Formkommentar“ zusammengefasst. Die DTD des Wörterbuchartikels Die bisher von uns gesammelten Informationen sind ausreichend, um eine Dokumenttypdefinition (DTD) für dieses Artikelsegment und hoffentlich recht viele weitere Artikelsegmente zu erstellen: eintrag id ID #IMPLIED> hom (lemma, formkommentar)> hom id ID #IMPLIED> formkommentar (wortart, genus?)> lemma (#PC word>

120

Wörterbuchstrukturen

lesen NN.PP Vorlesungen halten Er liest [über] englische Literatur. Der Autor liest aus seinen Werken.



4 Standardisierung von Wörterbuchartikelstrukturen 4.1 Standardisierungsinitiativen Der Reichtum an linguistischen Informationen zu lexikalischen Zeichen hat vor allem in den großen Sprachen zu einer Vielfalt von Wörterbüchern geführt. Neben den standardsprachlichen Allgemeinwörterbüchern mit einem reichen Informationsprogramm und stark standardisierten Artikelstrukturen gibt es eine Vielzahl von ein- und mehrsprachigen Spezialwörterbüchern26 . Diese Pluralität der Wörterbücher und Artikelstrukturen ist im Bereich der Sprachtechnologie keinesfalls erwünscht. Natürlich ist es auch hier umso besser, je reicher und vielfältiger die Informationen zu lexikalischen Einheiten sind und je besser die Abdeckung der beschriebenen Sprache durch die lexikalischen Ressourcen ist. Die lexikalischen Ressourcen sollten im Idealfall aber wie Bausteine kombinierbar sein, damit ein für die jeweilige Anwendung maßgeschneidertes Informationsprogramm zur Verfügung gestellt werden kann. Dies ermöglicht zugleich die Wiederverwendung einmal erstellter Ressourcen in verschiedenen Anwendungen und minimiert den Erstellungsaufwand für neue Ressourcen. Das Ziel kann nur erreicht werden, wenn ein allgemeinverbindlicher Standard hinsichtlich der Struktur von Wörterbuchartikeln, der Angabetypen und der Wertebereiche dieser Angabetypen geschaffen und durchgesetzt wird. Die sprachtechnologische Gemeinschaft arbeitet bereits mehr als fünfzehn Jahre an diesem Ziel. Die wichtigsten Meilensteine sollen kurz genannt werden, bevor wir auf die neuesten Entwicklungen eingehen. • Das europäische Projekt MULTILEX27 entwickelte Anfang der neunziger Jahre einen Standard für Wörterbuchartikel in mehreren Sprachen, der auf europäischer Ebene durchgesetzt werden sollte. Das damals entwickelte Format spielt in der heutigen Standardisierungsdiskussion keine Rolle mehr. • Die europäische ‚Expert Advisory Group on Language Engineering Standards‘ (EAGLES)28 entwarf auch einen Standardvorschlag für C OMPU TATIONAL L EXICONS29 . Dieser basierte auf einer Analyse bestehender lexikalischer Ressourcen und formulierte Empfehlungen (‚Recommendations‘), die für die weitere Entwicklung einflussreich waren.

26

27

28 29

Engelberg und Lemnitzer 2001 geben in Kapitel 1.3 und Kapitel 2 einen Einblick in diese Vielfalt. S. http://www.computing.surrey.ac.uk/AI/PROFILE/projs_term_ mlex.html. S. http://www.ilc.cnr.it/EAGLES/home.html. S. http://www.ilc.cnr.it/EAGLES/browse.html.

122

Wörterbuchstrukturen

• Das GENELEX-Projekt als ein europäisches Projekt mit starker industrieller Beteiligung hatte ebenfalls die Erstellung eines generischen Modells für wiederverwendbare lexikalische Ressourcen zum Ziel30 . • Im PAROLE-Projekt ging es nicht vorwiegend um die Entwicklung von Standards, sondern darum, „to offer a large-scale harmonised set of ‚core‘corpora and lexica for all European Union languages.“31 Die Struktur der entwickelten lexikalischen Ressourcen orientiert sich am EAGLES und am GENELEX Format. Aufbauend darauf ging es im SIMPLE Projekt darum, „to add semantic information, selected for its relevance for LE applications, to the set of harmonised multifunctional lexica built for 12 European languages by the PAROLE consortium“32 , und damit um die Erweiterung dieser Ressourcen. • Das ISLE-Projekt33 thematisierte den Entwurf und die Implementierung von Standards für Sprachressourcen, u.a. auch für Lexika34 . Ein besonderes Anliegen von ISLE war die Verbindung zu ähnlichen Initiativen in den USA und den asiatischen Ländern. Insgesamt lässt sich zu all diesen Standardisierungsbemühungen nur kritisch anmerken, dass diesen kurzfristig angelegten und geförderten Projekten und Initiativen die Macht und das organisatorisch-administrative Instrumentarium fehlten, um die entworfenen Standards zu implementieren und langfristig durchzusetzen. ISLE endete, als letztes der vorgenannten Projekte, im Jahr 2002.

4.2 Das Lexical Markup Framework Das Modell Die Bemühungen waren aber keinesfalls fruchtlos oder ohne Einfluss. Im Gegenteil haben sich die beteiligten Seiten weltweit zu einer Arbeitsgruppe unter dem Dach der ‚International Organisation for Standardisation‘35 zusammengeschlossen. Als Arbeitsgruppe innerhalb des ‚Technical Committee 37 – Terminology and other language and content resources‘ wird seit Anfang der Dekade ein L EXICAL M ARKUP F RAMEWORK entwickelt36 . 30 31 32 33

34

35 36

Vgl. http://perso.orange.fr/laurence.zaysser/llc94.html. S. http://www.elda.org/catalogue/en/text/doc/parole.html. S. http://www.ub.es/gilcub/SIMPLE/simple.html. ‚International Standards for Language Engineering‘, s. http://www.ilc.cnr.it/ EAGLES96/isle/complex/clwg_home_page.htm. S. http://www.ilc.cnr.it/EAGLES96/isle/complex/clwg_home_page. htm, Homepage der ‚Computational Lexica Working Group‘. www.iso.org. Den Entwurf des Standards findet man unter http://www.tagmatica.fr/doc/ ISO24613cdRev9.pdf.

Wörterbuchstrukturen

123

Das Dach, die normative Kraft und die administrative Unterstützung der ISO könnte diesem Standard zur Durchsetzung verhelfen. Er könnte deshalb die Arbeit an lexikalischen Ressourcen für längere Zeit beeinflussen, wenn nicht gar bestimmen. Wir werden ihn deshalb an dieser Stelle ausführlicher vorstellen. Das Lexical Markup Framework • bezieht die Arbeiten und Errungenschaften der oben beschriebenen Vorläuferprojekte mit ein; • unterstützt die Anwendung des Standards bei der Erstellung neuer lexikalischer Ressourcen; • unterstützt die Konvertierung von bestehenden lexikalischen Ressourcen in Formate, die standardkonform sind; • erleichtert somit den Austausch und die Verknüpfung verschiedener lexikalischer Ressourcen, sofern sie standardkonform sind, und forciert damit deren Wiederverwendung; • greift bei der Festlegung des lexikalischen Informationsprogramms auf Datenkategorien zurück, die ebenfalls Gegenstand der Normierung durch die ISO sind37 . Der Standard definiert den K ERN einer lexikalischen Ressource – Lexikon bzw. lexikalische Datenbank – und die Mikrostruktur eines lexikalischen Eintrags. Neben dieser Kernstruktur werden fünf für die Sprachtechnologie zentrale Ressourcen als Erweiterungen des Kerns festgeschrieben: • • • • • •

Maschinenlesbare Wörterbücher; morphologische Ressourcen für sprachtechnologische Anwendungen; syntaktische Ressourcen für sprachtechnologische Anwendungen; semantische Ressourcen für sprachtechnologische Anwendungen; mehrsprachige Ressourcen; Muster für mehrgliedrige lexikalische Einheiten.

Wir werden im Folgenden den Kern und einige der Erweiterungen vorstellen. Dabei werden wir graphische Darstellungen der Strukturmodelle aus dem Standardtext kopieren. Die Darstellung erfolgt in der U NIFIED M ODELLING L ANGUAGE (UML)38 . Da wir keine Kenntnisse dieser Modellierungssprache erwarten, finden Sie in Abbildung 16 die wichtigsten Darstellungsmittel zusammengefasst.

37 38

type="DISJ" targ="---IDIOM Begin ---&S-REW;--- IDIOM End ---"> Regel 1: Regulärer Ausdruck / Muster für aufs Ohr hauen Die Regel berücksichtigt, dass zwischen den einzelnen Textwörtern Leerzeichen oder Zeilenumbrüche stehen können. Diese Extra-Leerzeichen werden durch den rewrite-Teil der Regel getilgt. Schließlich wird das erkannte Muster markiert. Dies kann, wie hier, durch einen einschließenden Text geschehen, oder auch durch XML-Tags. Im Ergebnis sieht der Beleg wie folgt aus. (41)

16

Während sich die Fahrer in ihren Kabinen — IDIOM Begin — aufs Ohr hauen — IDIOM End — , machen sich Knaack und Thran allein zur Grenze auf.

S. http://www.ltg.ed.ac.uk/~richard/ltxml2/lxtransduce-manual. html.

Mehrgliedrige lexikalische Einheiten

307

Das zweite Beispiel ist etwas komplizierter. Wir wollen für das Phrasem in die Quere kommen zwei Formen der Modifikation berücksichtigen: • durch den Satzkontext bedingte Modifikation des Verbs durch Flexion (siehe Beispiel (42)) • Satzglieder treten zwischen das Verb und den fixen Bestandteil in die Quere (siehe Beispiel (43)). Dies ist besonders dann der Fall, wenn das Verb an zweiter Position im Satz steht. (42)

Die Bewohner der Ranchos schwärmten in die Stadt aus und verwüsteten alles, was ihnen in die Quere kam.

(43)

Aich schleppt eine Kiste „Dash“-Waschpulver, Jahrgang 1970, vor die Tür, kommt dabei den Arbeitern in die Quere.

Der erste Quelle der Variation, die Modifikationen des Verbs, wird in der folgenden Regel dadurch begegnet, dass alle Vollformen dieses Verbs aufgezählt werden: . Eine Alternative hierzu ist ein Lexikon, in dem die Vollformen einer Grundform zugeordnet werden. Dies bietet sich vor allem dann an, wenn viele Phraseme mit flexiblem Verb modelliert werden sollen. Die Lösung für die zweite Quelle der Variation besteht darin: • zunächst den Text in Wortelemente zu zerlegen und die einzelnen Wörter mit einem simplen XML-Tag zu umschließen; • die beiden Teile des Phrasems – Verb und fixen Bestandteil – als Klammern zu betrachten, in der weitere Elemente des Satzes stehen können. Eine sehr einfache Regel für die Wortzerlegung sieht wie folgt aus: Regel 2: Regulärer Ausdruck / Muster für die Wortzerlegung

308

Mehrgliedrige lexikalische Einheiten

Hier geschieht nichts weiter, als dass eine Zeichenkette zwischen Trennzeichen in das Worttag eingeschlossen wird. Natürlich ist die Wortzerlegung von Texten in der Praxis viel komplexer. Es geht uns aber an dieser Stelle nicht darum, eine gute Lösung für die Wortzerlegung zu präsentieren. Die Zerlegung ist in diesem Beispiel nur Mittel zum Zweck der Phrasemerkennung. Die Regel für die Erkennung des Phrasems inkl. der dazwischen liegenden Satzteile sieht wie folgt aus: Regel 3: Regulärer Ausdruck / Muster für in die Quere kommen Abgebildet ist nur der Teil der Regel, der Vorkommen des Phrasems findet, bei dem das Verb vor dem fixen Teil in die Quere steht. Die Satzteile, die zwischen den beiden Phrasemteilen stehen, werden nicht weiter analysiert und tauchen in der Ausgabe als Teil des Phrasems auf. Eine genauere Analyse wird diese Teile weiter analysieren und durch weitere Regeln als Phrasemexterne Bestandteile markieren. Wir haben gesehen, dass sich mit der zeichenkettenbasierten Verarbeitung von Texten schon relativ viel erreichen lässt. Allerdings ist dieses Verfahren zu unpräzise und reicht nicht an die Qualität der linguistischen Analysen heran, die wir in den Abschnitten 3.3 – 3.5 präsentiert haben. Die linguistische Analyse geht von der Kenntnis linguistischer Wort- und Phrasenkategorien wie Adverb oder Adjektivphrase aus. Dieses Wissen lässt sich aus einem unannotierten Text leider nicht ermitteln. Es ist aber oftmals möglich, den Text so weit linguistisch zu annotieren, dass diese Kategorien aus dem annotierten Dokument selber extrahiert werden können. Die folgende Regel macht sich die Wortartenannotation zunutze, um ein Adverb im Text zu finden:

Mehrgliedrige lexikalische Einheiten

309

Regel 4: Regulärer Ausdruck / Muster für Adverbien Die folgende Regel definiert eine einfache Nominalphrase als eine Folge von Determiner, Adjektiv(phrase) und Nomen. In dieser Regel wird dabei auf weitere Regeln referiert, in denen die Muster für diese Elemente genauer beschrieben werden: Regel 5: Regulärer Ausdruck / Muster für eine einfache Nominalphrase Zwischen Text und Lexikon Lokale Grammatiken für die Erkennung der textuellen Vorkommen von Phrasemen können das Bindeglied zwischen Text und Lexikon bilden. Die Grammatik modelliert auf abstrakte Weise die Menge der textuellen Vorkommen jedes einzelnen Phrasems. Dabei können • • • •

fixe Bestandteile des Phrasems, morphologisch flexible Bestandteile des Phrasems, optionale Modifikatoren des Phrasems oder einzelner Phrasemteile, weitere Bestandteile des Kontexts

in der Grammatik definiert werden, entweder als Zeichenkettenmuster oder als Kombination von Zeicheninformation und grammatischer Information. Für jedes Phrasem kann auf diese Weise ein Mustererkenner erstellt werden, der sowohl die idiosynkratischen Aspekte des Phrasems als auch die Bestandteile, die das Phrasem mit anderen Phrasemen des gleichen Typs teilt, berücksichtigt. Dieser Ansatz wird damit dem Januscharakter von Phrasemen – teils idiosynkratisch, teils regulär – gerecht. Die durch entsprechende lexikalische Ressourcen gesteuerte Textanalyse kann auf diese Weise die Vorkommen von im Lexikon verzeichneten Phrasemen im Text markieren. Dadurch wird verhindert, dass weitere Analysemodule diese Textteile gemäß den Regeln für frei kombinierte Phrasen und Sätze behandeln.

310

Mehrgliedrige lexikalische Einheiten

3.8 Korpusbasierte Beschreibung von Phrasemen An der Berlin-Brandenburgischen Akademie der Wissenschaften ist ein von Christiane Fellbaum geleitetes Projekt zur lexikographischen Beschreibung von Kollokationen und Phrasemen des Gegenwartsdeutschen beheimatet. Die Grundlage dieses lexikographischen Prozesses ist das etwa 1 Milliarde Wörter umfassende digitale Korpus der deutschen Sprache, das ebenfalls an der Akademie der Wissenschaften aufgebaut und gepflegt wird17 . Im Projekt werden mehrere Tausend Mehrwortlexeme beschrieben, die sich aus den häufigsten Verben und nominalen Komplementen zusammensetzen. Entsprechend groß kann die Treffermenge ausfallen, wenn man nach der Kombination dieser Stichwörter sucht. Dementsprechend wird versucht, die Korpusabfrage stärker zu formalisieren, um, eventuell in mehreren Schritten, die Abfragen zu verfeinern und damit die Treffermenge einzugrenzen18 . Mustererkennung über linguistisch voranalysierten Texten ist auch hier eine der gewählten Strategien. Die Arbeitsergebnisse werden in das Wortinformationssystem des DWDS integriert werden. Es wird verschiedene Sichten auf die Daten für verschiedene Gruppen von Benutzern geben, z.B. Lexikographen, Linguisten oder Deutschlerner. Momentan sind die Ergebniseinträge aber noch nicht öffentlich zugänglich. Der interessierte Leser kann sich über die Homepage des Projekts auf dem Laufenden halten.

4 Weiterführende Literatur Wir haben in diesem Kapitel Kollokationen und Phraseme behandelt. Kollokationen sind in den letzten zehn Jahren zu einem der prominentesten Themen der Computerlexikographie aufgestiegen und es werden immer wieder gute Arbeiten mit neuen Ansätzen für die Klassifizierung und die Erkennung von Kollokationen in Textkorpora veröffentlicht. Für einen Überblick sind die Dissertation von Lothar Lemnitzer (1997) und die aktuellere Dissertation von Stefan Evert (2005) empfehlenswert. Eine gute Darstellung der Position des britischen Kontextualismus findet sich in der Arbeit von John Sinclair (1991) dargelegt. An neueren Arbeiten wolllen wir darüber hinaus die von Dirk Siepmann (2006) erwähnen. Die Literatur zur Phraseologie ist sehr umfangreich und heterogen. Zum Glück gibt es mittlerweile das Handbuch Phraseologie, das einen Einstieg in 17

18

Vgl. Fellbaum et al. (2006). Wir stützen unsere Beschreibung des Projektes auf diese Publikation sowie auf einen Projektbericht, der unter http://kollokationen.bbaw.de/ htm/report_de.html verfügbar ist. Die Abfragestrategie wird im Detail in Herold (2007) beschrieben.

Mehrgliedrige lexikalische Einheiten

311

eine Vielzahl von Facetten dieses Forschungsgebiets auf dem aktuellen Stand der Forschung erlaubt (Burger et al. (2007)).

5 Aufgaben 1. Wir haben in Abschnitt 1 dieses Kapitels mehrgliedrige Lexeme in verschiedene Kategorien unterteilt (Phraseme, Kollokationen, mehrgliedrige Komposita, Partikelverben, mehrgliedrige Funktionswörter, Funktionsverbgefüge). Ordnen sie die folgenden Beispiele einer dieser Kategorien oder ggf. der Kategorie der freien Fügungen zu. (44)

roter Teppich

(45)

hin und wieder

(46)

hin und her

(47)

jmdm einen Bären aufbinden

(48)

Nach Ihnen!

(49)

emsig wie ein Eichhörnchen

(50)

zum Abschluss bringen

(51)

grüner Tisch

(52)

es nicht übers Herz bringen (etwas zu tun)

(53)

eine wichtige Rolle spielen

2. In den folgenden Beispielsätzen finden sie jeweils ein Phrasem: (54)

Aus seiner Drogensucht hatte er nie einen Hehl gemacht.

(55)

Da will ich noch mal ein Auge zudrücken.

(56)

Es wird Zeit, ihnen reinen Wein einzuschenken.

(57)

Ich lasse mir von Ihnen kein X für ein U vormachen.

(58)

Können Sie das nochmal wiederholen, ich habe den Faden verloren.

(59)

Jede Woche wird eine neue Sau durchs Dorf getrieben.

• Markieren Sie in diesen Sätzen die Bestandteile, die Ihrer Meinung nach zum Phrasem gehören. • Versuchen Sie, für das Phrasem eine Ansetzungsform (= Grundform) zu finden. Unter welchem Stichwort/welchen Stichwörtern würden Sie das Phrasem einordnen. Vergleichen Sie Ihre Ergebnisse mit einem einsprachigen Wörterbuch Ihrer Wahl.

312

Mehrgliedrige lexikalische Einheiten • Benennen Sie, welche der in Abschnitt 3.4 aufgelisteten internen Modifikationen bei diesen Phrasemen möglich sind, so dass der idiomatische Gebrauch erhalten bleibt.

3. Für Fortgeschrittene und computerlinguistisch Interessierte: Entwickeln Sie für mindestens eines der Phraseme eine Grammatik, die die möglichen textuellen Variationen des Phrasems erfasst. Sie können hierfür den in Abschnitt 3.7 vorgestellten Formalismus verwenden.

12 Glossar

Ablaut Mit Ablaut wird der systematische Wechsel bestimmter Vokale in etymologisch verwandten Wörtern bezeichnet. Der Ablaut spielt im Deutschen vor allem bei der Flexion starker Verben eine Rolle, hierdurch werden morphosyntaktische Merkmale wie Tempus und Numerus markiert (z.B. laufen – lief, wachsen – wuchs). Der Ablaut spielt, wenn auch in geringerem Maße, eine Rolle bei Wortbildungsprozessen (trinken, Trank, Getränk, Umtrunk). abstrakte Mikrostruktur Die abstrakte Mikrostruktur bezieht sich auf das Inventar lexikographischer Angabeklassen, das für die Beschreibung verschiedener Lemmazeichentypen bereitgestellt wird. Sowohl die Auswahl der einzelnen Beschreibungssegmente als auch die Anordnung dieser Elemente kann für unterschiedliche Lemmazeichentypen (z.B. unterschiedliche Wortarten) und natürlich auch im individuellen Fall stark variieren. Davon zu unterscheiden ist die spezifische Mikrostruktur, die einem konkreten Lemmazeichen zugeordnet wird. Affix Affix ist eine Sammelbezeichnung für in der Regel nicht frei vorkommende Wortbildungselemente. Nach ihrer Position im Verhältnis zum Stammmorphem werden die Affixe in P RÄFIXE, I NFIXE (für das Deutsche nicht so relevant), S UFFIXE und Z IRKUMFIXE unterteilt. Annotation Unter Annotation versteht man Anreicherung der Primärdaten eines Korpus mit linguistischen Informationen. Antonymie Unter Antonymie fasst man die Sinnrelation der Gegenteiligkeit von Wörtern bzw. lexikalischen Einheiten, wie sie z.B. zwischen groß und klein, gewinnen und verlieren, Fachmann und Laie bestehen. Die Antonymie ist eine symmetrische Relation. Bedeutungspostulat Ein Bedeutungspostulat liefert eine formale Definition der Bedeutung von Wörtern relativ zueinander. So können lexikalischsemantische Relationen wie Hyperonymie formal erfasst werden. Der Begriff geht auf Carnap zurück, der ihn zur Bezeichnung genereller semantischer Regeln, die Relationen zwischen den Prädikaten einer künstlichen Sprache beschreiben, einführt. Die Generative Semantik nutzt Bedeutungspostulate zur Explikation der semantischen Relationen zwischen atomaren Prädikaten. Montague schränkt mittels Bedeutungspostulaten

314

Glossar

den Interpretationsbegriff ein: Nur solche Interpretationen sind zulässig, die alle Bedeutungen in mindestens einer möglichen Welt wahr machen. Bigramm/Trigramm Bigramme und Trigramme sind Folgen von zwei bzw. drei Elementen derselben Komplexitätsstufe, also z.B. Folgen von zwei / drei Phonemen, Graphemen, Wörtern. Binomialverteilung Die Binomialverteilung entspricht einem Experiment, bei dem genau zwei Ausgänge möglich sind. Das prototypische Zufallsexperiment mit einer Binomialverteilung ist der Münzwurf (Zahl = 0, Kopf = 1). Aber auch der Test auf Gleichheit eines zufällig gezogenen Elements auf Übereinstimmung mit einem vorgegebenen Merkmalswert lässt sich mit der Binomialverteilung modellieren (stimmt überein = 1, stimmt nicht überein = 0). χ2 -Test, chi-Quadrat-Test Der χ2 -Test wird insbesondere bei der Prüfung von Vierfelder- und anderen Mehrfeldertafeln angewendet. Es werden die Varianzen einer Stichprobe und einer Grundgesamtheit verglichen. Wenn die Varianz der Stichprobe (S 2 ) des Umfangs n einer normalverteilten Grundgesamtheit mit der Varianz σ 2 entstammt, dann ist die Zufallsvariable (n − 1)S 2 ∼ χ2n−1 (8) σ2 χ2 verteilt mit n − 1 Freiheitsgraden. Diese Verteilung ist eine stetige unsymmetrische Verteilung, die sich bei wachsendem Stichprobenumfang langsam der Standardnormalverteilung annähert:   x−n Fdχ2n (x) = P (Z ≤ x) ' Φ √ (9) 2n Der kritische Wert für den Test auf Gleichheit der Varianzen von Stichprobe und Grundgesamtheit kann über die Anzahl der Freiheitsgrade und das Signifikanzniveau, zu dem die Nullhypothese angenommen oder verworfen wird, ermittelt werden. Da die nach der Maximum-LikelihoodMethode bestimmte Prüfgröße bei einem Test auf Unabhängigkeit approximativ χ2 -verteilt ist, wird mit diesem Test u.a. geprüft, ob zwei binomial verteilte Zufallsvariablen der gleichen Grundgesamtheit entstammen. Concept Lattice Im Rahmen der „Formal concept analysis“, welche als eine Methode der Datenanalyse auf Merkmalsmatrizen, die eine Menge von Objekten und ihre Eigenschaften spezifizieren, operiert, werden natürliche Cluster von Eigenschaften und natürliche Cluster von Objekten der Ausgangsdaten ermittelt. Als natürliches Objektcluster gilt die Menge aller Objekte, die eine gemeinsame Teilmenge von Eigenschaften haben, und als natürliches Eigenschaftscluster die Menge aller Eigenschaften, die von einem der natürlichen Objektcluster geteilt werden. Ein Konzept

Glossar

315

wird in diesem Ansatz als ein Paar, das aus einem natürlichen Eigenschaftscluster und dem zugehörigen natürlichen Objektcluster besteht, aufgefasst. Diese Konzepte gehorchen den mathematischen Prinzipien eines Lattice, das zur Zerlegung eines Raumes in disjunkte Subräume dient. Ein solches Lattice wird als C ONCEPT LATTICE oder G ALOIS LATTICE bezeichnet. Derivation Die Derivation ist einer der Haupttypen der Wortbildung. Wortbildung durch Derivation geschieht entweder durch die Verbindung von Affixen oder Affixoiden mit Wortstämmen (wunder-bar, er-geben, fehlerfrei), durch Lautveränderung (trinken, Trank) oder durch Rückbildung (schauen → Schau). Gelegentlich wird auch die unmarkierte Transposition eines Wortes in eine andere Wortart unter die Derivation gefasst (nachdenken → das Nachdenken); dies wird ansonsten unter dem Begriff KONVERSION gefasst. Diathese Unter den Diathesen eines Verbs versteht man, unter der Beibehaltung der Kernbedeutung, sein Realisierungspotenzial in verschiedenen syntaktischen Argumentrahmen, z.B. A KTIV vs. PASSIV. Diathesen dienen oft zur Herstellung einer Perspektive auf das referierte Ereignis. Distinguisher Distinguisher stellen in der Merkmalssemantik in der Version von Katz und Fodor lesartendifferenzierende Bedeutungsmerkmale zur Verfügung. So unterscheidet in Bezug auf das englische Nomen bachelor der Distinguisher who has the first academic degree den akademischen Bachelor vom Junggesellen. Distribution Die Distribution eines sprachlichen Zeichens oder Elements ist die Gesamtheit der Umgebungen, in denen es im Verhältnis zu den Umgebungen aller anderen sprachlichen Elemente vorkommen kann. Dokumentgrammatik In einer Dokumentgrammatik werden die Elemente eines Dokumenttyps, deren Attribute sowie die Relationen (Linear Precedence, Immediate Dominance) zwischen den Elementen festgelegt. Eine Dokumentgrammatik kann z.B. in einer DTD oder einem Schema beschrieben werden. Dokumentschema Ein Dokumentschema ist eine Kennzeichnung der Struktur eines Dokumenttyps mittels einer formalen Sprache (einer Schemasprache). Im Rahmen von XML wurde eine Schemasprache eingeführt (XML Schema), mit der die Struktur von Typen von Dokumenten beschrieben werden soll (siehe auch: Dokumenttypdefinition). Dokumenttypdefinition Eine Dokumenttypdefinition (kurz: DTD) ist eine Beschreibung der Struktur von Dokumenten eines bestimmten Typs. In einer DTD werden die Elemente, die die Trägermenge der Textstruktur bilden, sowie Attribute dieser Elemente festgelegt. Man kann eine DTD deshalb auch als Dokumentgrammatik bezeichnen, durch die eine Menge wohlgeformter Dokumente definiert wird. Diese Dokumente werden

316

Glossar

als KONFORM zu der entsprechenden DTD bezeichnet. Da man hinsichtlich der Ausdrucksstärke von DTDs bei der Beschreibung von Dokumenten immer wieder auf Grenzen stieß, wurde im Rahmen des Designs von XML ein mächtigerer Formalismus, die sog. Schemata, eingeführt. Diese sollen auf Dauer die DTDs ablösen. Domänen-Ontologie Eine Domänen-Ontologie modelliert einen fachsprachlichen oder in irgendeiner Form relevanten Wissensbereich (der auch interdisziplinär ausgerichtet sein kann), z.B. aus den Bereichen der Kommunikation, Finanzwelt oder Geographie. Da bei der Modellierung von Domänenwissen Fragestellungen, welche die Modellierung der Top-Konzepte betreffen, häufig keine Rolle spielen, werden diese meist vernachlässigt. Unterschiedliche Ontologietypen können miteinander korreliert sein, z.B. können Domänen-Ontologien mit Top- oder Mid-LevelOntologien sowie mit Kontextontologien verbunden werden. Dominanz Unter Dominanz verstehen wir die vertikale strukturgebende Relation in Hierarchien, die asymmetrisch, direktional und auch kettenbildend ist. Z.B. bezeichnet ist größer als eine asymmetrische, gerichtete und kettenbildende Relation: A ist größer als B ist nicht gleich B ist größer als A, daher spricht man hier von Asymmetrie. Die Relation ist größer als geht vom Knoten A aus und führt zu dem Knoten B, ist also gerichtet. A ist größer als B und B ist größer als C, etc. weist auf das kettenbildende Potenzial der Relation. Die Relation der Dominanz kann transitiv oder instransitiv sein. ist größer als ist eine transitive Relation, denn es gilt auch: A ist größer als C. Die asymmetrische, gerichtete und kettenbildende Relation ist Mutter von ist intransitiv, da aus A ist Mutter von B und B ist Mutter von C nicht A ist Mutter von C folgt. Eckform In der lexikographischen Werkstattsprache bezeichnet Eckform die Form eines Flexionsparadigmas, aus der sich die anderen Formen eines (Teil-)Paradigmas ableiten lassen. In der deutschen sprachlexikographischen Tradition wird das Singularparadigma eines Substantivs durch die Genitivform und das Pluralparadigma durch die Nominativform repräsentiert (Mensch; (des) -en, (die) -en). Entity-Relationship-Graph Ein Entity-Relationship-Graph ist ein formales Mittel zur Visualisierung von Objekten, deren Eigenschaften sowie ihrer Beziehungen zueinander. ER-Graphen werden vor allem bei der Entwicklung von Datenbanken verwendet. Mithilfe von ER-Graphen können Wirklichkeitsausschnitte so modelliert werden, dass die diesen Ausschnitt beschreibenden Daten in einer Datenbank erfassbar sind. Frame-Semantik Die Frame-Semantik bezeichnet eine aus der Fillmoreschen Kasusgrammatik hervorgegangene Theorie, die semantisches Wissen unter explizitem Rückgriff auf konzeptuelles Wissen rekonstruiert. Konzepte werden in so genannten Frames als Objekte mit Attributen und

Glossar

317

Wertzuschreibungen als S LOT-F ILLER -PAARE repräsentiert. Zunächst war die Frame-Semantik auf die Repräsentation von Nomina ausgerichtet, bevor die Darstellung von Prädikat-Argument-Strukturen für Verbkonzepte in den Mittelpunkt des Interesses rückte. Ein Verb-Frame wie APPLY _ HEAT kann durch verschiedene lexikalische Einheiten wie kochen, brutzeln, backen, dämpfen, anbraten, aufwärmen, dünsten, etc. aktiviert werden. Frequenzliste Eine Frequenzliste ist eine Liste von linguistischen Einheiten (Graphemen, Worttypes, Grundformen, Bigrammen u.Ä.), die nach der Häufigkeit des Vorkommens in der zugrunde liegenden Datenbasis sortiert ist. Grundform Die Grundform einer lexikalischen Einheit ist die Form, unter der diese lexikalische Einheit im Wörterbuch verzeichnet wird. Diese Form wird auch Z ITIERFORM genannt. Hapax legomenon Ein Hapax legomenon (griechisch, wörtlich übersetzt: einmal gelesen) ist ein Wort, das genau einmal in einem Text bzw. in Textkorpora vorkommt. Holonymie Holonymie bezeichnet bei der Teil-Ganzes-Relation die übergeordnete Entität in Bezug auf seine Gesamtheit. Ein Holonym mag hinsichtlich seiner Teile spezifiziert sein, z.B. hat ein Auto die Teile Motor, Räder, Bremse, Steuer, aber eine Klimaanlage ist z.B. kein notwendiger Teil eines Autos. Teil-Ganzes-Beziehungen sind also nicht immer umkehrbar. homonym Eine lexikalische Form, die lexikalische Einheiten realisiert, die zu verschiedenen Lexemen gehören, gilt als homonym. Darunter fällt auch die Zuordnung zu verschiedenen Kategorien (homographe Formen) wie modern als Verb (‚verfaulen‘) oder als Adjektiv (‚fortschrittlich‘). Hyperlexika Hyperlexika bezeichnen im Hypertext realisierte elektronische Wörterbücher. Die Einträge und Eintragssegmente werden als Knoten, die Verweise zwischen den Elementen als Hyperlinks realisiert. Hyperonymie Hyperonymie bezeichnet die Sinnrelation der Überordnung zwischen Wörtern bzw. Konzepten. Der übergeordnete Begriff, das so genannte Hyperonym, ist generischer und dominiert meist mehr als einen Unterbegriff (Hyponym), so wie etwa Vogel mit den Unterbegriffen Rotkehlchen, Nachtigall, Amsel, Star, Lerche, etc. Hyperonymie ist eine asymmetrische und transitive Relation (s. hierzu den Eintrag zu Dominanz). Hyponymie Hyponymie bezeichnet die Sinnrelation der Unterordnung zwischen Wörtern bzw. Konzepten und ist das konverse Gegenstück zur Hyperonymie. Ein Hyponym ist spezifischer als sein Oberbegriff (vgl. Rotkehlchen gegenüber Vogel) und ist inkompatibel zu Ko-Hyponymen auf der gleichen Spezifizitätsebene (Rotkehlchen vs. Kohlmeise).

318

Glossar

Index Ein Index ist eine Liste von Wortformen, die in einem Korpus vorkommen. Die Wortformen werden zu T YPES zusammengefasst. Meist werden zusätzliche Informationen wie z.B. die absolute oder relative Häufigkeit des Vorkommens oder das Lemma angegeben. Inhaltsmodell Das Inhaltsmodell eines XML-Elements spezifiziert, welche Elemente von diesem Element dominiert werden, sowie die Reihenfolge dieser dominierten Elemente. Das Inhaltsmodell des Wurzelelements determiniert demnach die logische Struktur des Dokuments. Interlingua Unter einer Interlingua versteht man eine sprachunabhängige semantische Repräsentation, die als Mittler zwischen verschiedenen Sprachen fungieren kann, z.B. bei der maschinellen Übersetzung. Die Information aus der Quellsprache wird in die intermediäre Repräsentation der Interlingua übersetzt. Von dieser Repräsentation ausgehend wird die Übersetzung in die Zielsprache erzeugt. Die Interlingua eignet sich vor allem für Sprachpaare, in denen die grammatischen Konstruktionstypen erheblich voneinander abweichen. Es ist umstritten, ob es eine wirklich neutrale Interlingua geben kann oder ob diese Repräsentation nicht doch von einer Einzelsprache wie dem Englischen, das als Metasprachenlieferant für die Benennung semantischer Primitiva Pate stand, beeinflusst ist. Kernel Kernel bezeichnet den Hauptbestandteil einer möglicherweise komplexen Phrase und kann als semantisches Pendant zum Kopf (Head) einer Konstruktion aufgefasst werden. Kognitive Semantik Die Kognitive Semantik ist innerhalb der lexikalischen Semantik aus der Prototypentheorie Roschs und Lakoffs hervorgegangen. Dabei wird mentalen Konstrukten wie Prototypen eine konstituierende Funktion bei der Konzeptualisierung natürlicher Kategorien zugeschrieben und auf die Ebene der Wissensrepräsentation übertragen. Kollokation Kollokationen sind charakteristische, häufig auftretende Wortverbindungen (Adjektiv-Nomen, Nomen-Verb), deren Kovorkommen primär semantisch motiviert ist wie z.B. heißer Tipp oder Daten erheben. Die Abgrenzung zu Funktionsverbgefügen und anderen Mehrwortfügungen ist mitunter schwierig. Komposition Die Komposition ist einer der Haupttypen der Wortbildung. Zwei frei vorkommende Morpheme oder Morphemfolgen werden zu einem Kompositum verbunden, u.U. unter Einfügung eines Fugenelements (Feuer-werk, Arbeit-s-amt). Kompositionsprinzip Das Kompositionsprinzip geht auf die Logik Freges zurück. Danach wird die Bedeutung eines sprachlichen Ausdrucks (z.B. eines Satzes) aus den Bedeutungen seiner Bestandteile abgeleitet. Ein so analysierbarer Ausdruck ist semantisch TRANSPARENT. Phraseme gehorchen nicht dem Kompositionsprinzip.

Glossar

319

Konkordanz Eine Konkordanz ist eine Sammlung von Kotexten eines bestimmten Schlüsselworts. Kotexte einer bestimmten Länge (von Buchstaben, Wörtern oder Sätzen) in der Umgebung eines Schlüsselworts werden aus einem Korpus extrahiert und meist mit dem Schlüsselwort im Zentrum angeordnet. Konkordanzen werden vor allem bei wortbezogenen Untersuchungen verwendet. Kontextualismus Als Kontextualismus wird eine Richtung der Sprachwissenschaft bezeichnet, in der linguistische Einheiten immer im Kontext eines sprachlichen Ausdrucks und dieser wiederum im Kontext seiner Produktion und Rezeption untersucht werden. Kontingenztafel Werden zwei durch Experimente ermittelte Stichproben nach einem Merkmalspaar klassifiziert, oder eine Stichprobe nach zwei Merkmalen, dann lässt sich das Ergebnis übersichtlich in einer Tafel mit vier Feldern darstellen. In den vier Feldern befinden sich die numerischen Werte der vier durch die Klassifikation gewonnenen Klassen. Die Zeilenund Spaltensummen der Felder nennt man Randsummen. Demnach besteht eine Vierfeldertafel aus den vier Feldern mit den empirisch ermittelten Werten, vier Randsummenfeldern und einem Feld mit der Gesamtsumme, die der Summe der Zeilensummen bzw. der Summe der Spaltensummen entspricht. Die Vierfeldertafel ist ein Spezialfall einer Kontingenztafel. Der allgemeine Fall einer Kontingenztafel ist die r ⊗ s-Tafel mit r Zeilen, die z.B. r Stichproben repräsentieren, und s Spalten, die s Merkmale repräsentieren, nach der die Stichproben klassifiziert werden. Die Stichproben können daraufhin untersucht werden, ob sie als Zufallsstichproben aus einer durch die Randsummen charakterisierten Grundgesamtheit aufgefasst werden können. Eine oft verwendete testdeterminierende Verteilungshypothese ist in diesem Fall die χ2 -Verteilung oder, bei sehr kleinen Stichproben, die hypergeometrische Verteilung. konzeptueller Graph Die Theorie der konzeptuellen Graphen vereint die logische Ausdruckskraft existenzieller Graphen mit der Expressivität semantischer Netze, die John F. Sowa zur Repräsentation konzeptueller Schemata in Datenbankensystemen entwickelt hat. Dieser Ansatz hatte einen großen Einfluss auf Arbeiten der künstliche-Intelligenz-Forschung, der Informatik und den Kognitionswissenschaften. Neben der logischen Präzision und der Maschinenhandhabbarkeit ist die graphische Repräsentation, die als Standard etabliert ist, für menschliche Nutzer sehr anschaulich. Es gibt (rechteckige) Konzeptknoten und (ovale) Relationsknoten, die beliebig verknüpfbar sind. Variablen können in diesem Ansatz typisiert werden. Kookkurrenz Als Kookkurrenz wird das gemeinsame Vorkommen zweier oder mehrerer Wörter in einem Kontext von fest definierter Größe be-

320

Glossar

zeichnet. Das gemeinsame Vorkommen sollte höher sein, als bei einer Zufallsverteilung aller Wörter erwartbar wäre. Korpus Ein Korpus ist eine strukturierte Sammlung von Texten, die zu dokumentarischen oder linguistischen Zwecken zusammengefasst werden. Ein Korpus liegt heute in der Regel in maschinenlesbarer Form vor, die Texte sind meist durch Metadaten in Hinblick auf ihre Herkunft und weitere Attribute beschrieben. Für die linguistische Forschung des Deutschen werden an verschiedenen Standorten Korpora aufgebaut und zur Verfügung gestellt, u.a. am Institut für Deutsche Sprache in Mannheim und an der Universität Tübingen. künstliche Intelligenz Die künstliche-Intelligenz-Forschung bezeichnet ein Teilgebiet der Informatik, das sich mit der Modellierung und Verarbeitung intelligenter Prozesse beschäftigt. Dieser Forschungsbereich ist durchaus interdisziplinär ausgerichtet und bezieht Ansätze und Erkenntnisse der Kognitionswissenschaften (hier insbesondere die Psychologie und Neurologie), der Logik, Philosophie, Sprachwissenschaft und Kommunikationswissenschaften ein. In den meisten Forschungen geht es nicht primär darum, autarke intelligente Wesen maschinell nachzubilden, sondern eher um intelligente, d.h. wissensbasierte Unterstützung in konkreten Anwendungen und Problemstellungen. künstliche Konzepte Lexikalisch-semantische Wortnetze dienen zur Repräsentation lexikalischer Hierarchien und Muster in einem formalen Modell. Um die Hierarchien adäquater zu gestalten, bietet sich die Verwendung nicht-lexikalisierter Knoten an, die an passenden Stellen in das Netz eingefügt werden. So gibt es auf der taxonomischen Ebene unterhalb des generischen Knotens Lehrer keinen Schwesterknoten zum lexikalisierten Konzept Fachlehrer. Dieser ist aber kein geeigneter Oberbegriff für Lehrer verschiedenartiger Schultypen wie Hauptschullehrer oder Lehrer in einer hierarchischen Position wie Schuldirektor. Daher wurden mit ?Schultyplehrer und ?hierarchischer Lehrer zwei artifizielle Konzepte als Schwesterknoten zu Fachlehrer eingeführt. Puristen lehnen diesen Ansatz ab, weil künstliche Konzepte nicht exakt das Lexikalisierungsmuster einer Sprache abbilden. Allerdings können die Knoten durch ihre Auszeichnung jederzeit ausgefiltert werden. Lemma Das Lemma ist die Grundform einer bestimmten lexikalischen Einheit und steht stellvertretend für alle Wortformen dieser lexikalischen Einheit, z.B. die Grundform Haus im Nominativ singular für alle nach Numerus, Genus und Kasus flektierten Formen wie Haus, Hauses, Häuser, Häusern. Lemmatisierung Lemmatisierung bezeichnet den Prozess der Reduktion flektierter und variierter Wortformen auf ihre Grundformen, die so genannten Lemmata. Diese Lemmata stellen also Abstraktionen über Wort-

Glossar

321

verwendungen in Kontexten dar und können als Basisinventar eines Lexikons fungieren. Morphologische Analyseprogramme, die so genannten Lemmatisierer, bilden grammatische Wortformen auf ihre Basis ab. Lemmazeichengestaltangabe Die Lemmazeichengestaltangabe (LZGA) ist obligatorischer Bestandteil der Mikrostruktur eines standardisierten Wörterbuchartikels. Durch dieses Element wird die Gestalt der kanonischen Form, meistens der Grundform, des sprachlichen Zeichens angegeben, dessen Eigenschaften in dem Wörterbuchartikel beschrieben werden. Lesart Unter Lesart versteht man meist eine Bedeutungsstelle eines (ambigen) Wortes, d.h. die Zuordnung der relevanten semantischen Beschreibung zu einer gegebenen Wortform. In unserem Ansatz, der sich an Cruse orientiert, reden wir von LEXIKALISCHEN E INHEITEN, die genau dieses Form-Bedeutungs-Paar rekonstruieren. Lesartendisambiguierung Unter Lesartendisambiguierung versteht man die meist kontextuell gesteuerte Auswahl der passenden Lesart für einen gegebenen, oftmals ambigen sprachlichen Ausdruck. So kann Bank in einem Kontext, in dem von überweisen die Rede ist, auf das Konzept Geldinstitut zurückgeführt werden, während ein Kontext wie sitzen die Lesart als Sitzgelegenheit nahelegt. Die Lesartendisambiguierung zu automatisieren, ist immer noch problematisch, da kontextuelles Wissen verfügbar sein muss. Lexem Lexeme oder lexikalische Einträge fassen lexikalische Einheiten zu Komplexen zusammen, welche die Hauptzugriffseinheiten im klassischen Lexikon ausmachen. Ein Lexem mit verschiedenen Lesarten oder lexikalischen Einheiten kann als POLYSEM aufgefasst werden. Eine lexikalische Form, die lexikalische Einheiten realisiert, die zu verschiedenen Lexemen gehören, gilt als HOMONYM. lexikalische Einheit Dieser Terminus geht auf Cruse zurück und bezeichnet den kleinsten unabhängigen Form-Bedeutungs-Komplex. Lexikalische Einheiten sind Wörter oder Wortzusammensetzungen, deren lexikalische Form (als Abstraktion über flektierte und derivierte Varianten dieser Formen) genau eine Bedeutung aufweist. Morpheme sind zwar semantische Konstituenten, aber sie haben nicht den Status eigenständiger lexikalischer Einheiten. lexikalische Regel Systematische vorhersagbare Information über lexikalische Zeichen bzw. vorhersehbare Zusammenhänge zwischen Klassen lexikalischer Zeichen werden durch lexikalische Regeln erfasst, etwa die Beschreibung von syntaktischen Prozessen zwischen zwei Konstruktionstypen (Aktiv-Passiv; Dativalternation). Darüber hinaus dienen lexikalische Regeln auch der Beschreibung semantischer Zusammenhänge zwischen verschiedenen Lesarten eines Lexems, etwa bei Metaphern und Metonymien.

322

Glossar

lexikalische Wissensbank Eine lexikalische Wissensbank ist ein semantisch basierter Typ von elektronischem Lexikon, das auch dynamisches Lexikonwissen enthält wie die Anwendung lexikalischer Regeln und Prozesse. Lexikographie Im Gegensatz zur Lexikologie betont die Lexikographie den praktischen Aspekt der Wörterbucherstellung, was nicht ausschließt, dass nicht auch die Lexikographie einen theoretischen Ansatz verfolgen kann. Im Vordergrund steht allerdings die Nutzbarkeit der lexikalischen Information in einem Papierwörterbuch oder einem elektronischen Wörterbuch, die nach Anwendungszweck, Umfang und Adressatenkreis der jeweilig angestrebten Ressource ausgerichtet ist. Lexikologie Lexikologie umfasst die theoretische Beschäftigung mit Aspekten des Lexikons als abstraktem Konstrukt des menschlichen Sprachvermögens, z.B. die Analyse der Argumentstrukturen von Verben und Adjektiven. Dabei ist die Einbettung in ein theoretisches und explanatives Grammatikmodell wesentlich gegenüber einer deskriptiven Beschreibung oder Auflistung der Phänomene. Link Ein Link ist ein elektronischer Verweis in einem Hypertextdokument, der drei verschiedene Aspekte umfasst: die inhaltliche oder strukturelle Verbindung als solche, die Lokatoren der Knoten, die durch die Verbindung miteinander verknüpft sind, und die Etiketten zur Bezeichnung der Lokatoren. Auf Ebene der Hypertext-Implementierung wird das aus Lokator und Etikett bestehende Paar oft als A NKER bezeichnet. Ein Link ist also eine Relation, die als Anker implementiert ist. In einem HypertextWörterbuch sind Verweise als Links realisiert. logische Metonymie Logische Metonymie bezeichnet eine metaphorische Transformation eines Begriffes in Hinblick auf seine charakteristischen Eigenschaften; z.B. die Reduktion einer natürlichen Art auf ihr Fleisch, wie in Ich esse gern Schwein. Makrostruktur Unter der Makrostruktur eines Lexikons ist die Gesamtheit des Systemgefüges zu verstehen, in welchem die einzelnen Lemmazeichen Systemelemente darstellen, die in einer bestimmten Ordnung vorliegen. Die Makrostruktur stellt die wesentliche Zugriffsstruktur auf die einzelnen enthaltenen Elemente dar, z.B. durch alphabetische Ordnung oder Thesaurus-Index. Das Lemmazeichen selbst ist sowohl Teil der Makroals auch der Mikrostruktur eines Lexikons und vermittelt also zwischen diesen beiden Ordnungsebenen. Marker Marker bzw. semantischer Marker bezeichnet einen Begriff aus der Merkmalssemantik von Katz und Fodor. Marker kennzeichnen denjenigen Teil der lexikalischen Bedeutung, der als universell angenommen wird, z.B. in Bezug auf den Terminus Junggeselle stellen die Merkma-

Glossar le

323

semantische Marker dar, während das Merkmal als D ISTINGUISHER aufgefasst wird. Markupsprache Eine Markupsprache ist eine formale Sprache, mit deren Hilfe die logische Struktur von Texten durch Auszeichnung der Textelemente explizit und unabhängig von der äußeren Textgestalt, dem Layout, gekennzeichnet wird. Die bekanntesten Beispiele für Markupsprachen sind XML und SGML. maschinenlesbares Wörterbuch Ein maschinenlesbares Wörterbuch ist ein Wörterbuch, das in digitalisierter Form z.B. auf einer CD-ROM vorliegt und nur elektronisch zugreifbar ist. Diese Spezies elektronischer Wörterbücher ist für den menschlichen Computernutzer bestimmt, ermöglicht aber noch keine Anwendbarkeit in maschinellen Verfahren der Sprachverarbeitung. maschinenverarbeitbares Wörterbuch Dies ist die nicht so geläufige Übersetzung des Terminus machine tractable dictionary und bezeichnet digitale Lexika, die vom Computer in Anwendungen zur Verarbeitung natürlicher Sprache eingesetzt werden können, indem sie z.B. den Zugriff auf spezifische Segmente der lexikographischen Information gestatten. Maximum-Likelihood Methode Ausgangspunkt sind die aus der Parametervermutung und der Hypothese sowie der Gegenhypothese resultierenden Wahrscheinlichkeitsverteilungen und Wahrscheinlichkeitsdichten. Der Quotient bzw. der Logarithmus des Quotienten dieser Dichten wird „likelihood ratio“ genannt. Die Schätzer dieser Parameter, die diesen Quotienten, als Funktion betrachtet, maximieren, werden „maximum likelihood estimator“ genannt. Die ML-Methode bestimmt also diejenigen Werte als Schätzwerte für den unbekannten Parameter der Zufallsvariablen, die einem Stichprobenresultat die größte Wahrscheinlichkeit des Auftretens geben. Meronymie Meronymie und Holonymie bilden ein konverses Paar zur Bezeichnung von Teil-Ganzes-Relationen. Ein Meronym ist ein Teil eines Körpers, Artefakts oder einer anderen komplexen Struktur, etwa Bein als Teil des Körpers, Tür als Teil eines Gebäudes und Fußgängerzone als Teil einer Stadt. Diese Relation kann auch auf Menschen (Mitgliedschaft in einer Gruppe) oder Substanzen (Element in einer Komposition) bezogen sein. Mesostruktur Die Mesostruktur umfasst alle Relationen zwischen lexikalischen Einträgen eines Lexikons, seien es nun morphologische Verweise auf abgeleitete Formen oder semantische Verweise auf bedeutungsähnliche Einträge. Metapher Eine Metapher bezeichnet eine bildhafte Verwendung eines Ausdruckes, der gegenüber seiner Basisbedeutung eine Sinnveränderung erfährt. Z.B. ist Fuchs im Satz Dieser Wissensshowkandidat ist ein (echter) HUMAN

und

MALE

UNVERHEIRATET

324

Glossar

Fuchs nicht in seiner Kernbedeutung als Tier zu interpretieren, sondern einem Menschen werden gewisse fuchsartige Eigenschaften wie Schläue und Pfiffigkeit zugeschrieben. Trotz kreativer Beispiele sind Metaphern nicht beliebig bildbar; Gattungsbegriffe mit ihrem Potenzial an Prototypikalität sind denkbare Kandidaten für Metaphern. Mikrostruktur Unter der Mikrostruktur versteht man die Eintragsstruktur eines Wörterbuchs, genauer gesagt das abstrakte Aufbauschema, dem die enthaltenen Wörterbuchartikel folgen. Das betrifft sowohl die Auswahl der Elemente zur Beschreibung verschiedener Wortarten als auch die Reihenanordnung der lexikographischen Information in den Artikeln. Gerade für maschinell genutzte Lexika ist eine konsistent spezifizierte und realisierte Mikrostruktur essenziell. Multimedialität Multimedialität ist die Integration der bestehenden Techniken von Text, Illustration, Audio und Video. Multimedialität ist Informationsvermittlung unter Einbindung aller bestehenden Medien und unter Aufhebung der Grenzen zwischen Massen- und Individualkommunikation. Multimodalität Nach Dix sind multimodale Systeme dadurch gekennzeichnet, dass sie mehr als einen Sinnesmodus des Menschen zur MenschComputer-Kommunikation nutzen. Während Informationen meistens nur optisch auf einem Bildschirm dargestellt werden und damit die visuelle Modalität ansprechen, unterstützen multimodale Systeme auch eine akustische oder haptische Anzeige und beziehen damit auch die auditive, die taktile und die kinästhetische Sinnesmodalität in die Mensch-ComputerKommunikation ein. Systeme, die beispielsweise Video und Graphik integrieren, sind multimedial, nach Dix aber nicht multimodal. Named Entity Named Entities sind Zeichenketten, die in eindeutiger Weise ein singuläres Objekt benennen, z.B. einen Ort, eine Firma, eine Institution oder eine Person, aber auch z.B. ein Buch über seine ISBN (‚International Standard Book Number‘). Das Konzept weist dadurch Überschneidungen zu den Eigennamen auf. Dadurch, dass Zeitausdrücke (Daten) und andere numerische Muster als Named Entities behandelt werden, geht man aber über das Konzept des Eigennamens hinaus. Die Bildung dieses Konzepts hat vor allem pragmatische Gründe: Man sucht nach Mechanismen, um diese für texttechnologische Aufgaben wichtigen Elemente in Texten identifizieren zu können. Norm Mit Norm wird die in einer Sprachgemeinschaft übliche oder traditionelle Realisierung des Sprachsystems bezeichnet. Damit ist die Norm konkreter als das System, nämlich eine ihrer möglichen Realisierungen in einer konkreten Sprachgemeinschaft, zugleich aber abstrakter als die Parole.

Glossar

325

Normalverteilung und Standardnormalverteilung Mit der Normalverteilung kann die Häufigkeit von n Merkmalsverteilungen beschrieben werden. Die Dichtefunktion einer durch Erwartungswert und Varianz beschriebenen Normalverteilung N (µ, σ 2 ) hat eine glockenartige Form. Erwartungswert und Varianz sind mit den beiden Parametern der Verteilung identisch. Die Normalverteilung kann man relativ leicht in eine Standardnormalverteilung mit dem Erwartungswert 0 und der Varianz 1 transformieren. Die Normalverteilung hat den Vorzug, dass sie bei Abweichungen der Daten gegenüber der Verteilungsannahme relativ robust ist. Außerdem konvergiert die Binomialverteilung bei entsprechend großer Varianz gegen die (Standard)Normalverteilung, der Test von Hypothesen gegen die Binomialverteilungsannahme kann in diesem Fall auf die Normalverteilungsannahme reduziert werden. Für die Normalverteilung liegt als erwartungstreuer Schätzer der Mittelwert von n Beobachtungen vor. Die kritischen Werte für die verschiedenen Signifikanzniveaus α, die für das Testen von Hypothesen benötigt werden, sind vertafelt (z.B. im Anhang zu Hartung (1993)). Ontologie Unter einer Ontologie verstehen wir seit Gruber (1993) eine in explizit formaler Repräsentation vorliegende Konzeptualisierung eines Wissensbereiches, über die durch eine Gruppe von Fachleuten ein gewisser Konsens erzielt wurde. Das Wissen über Objekte und Eigenschaften wird explizit formalisiert, um logische Inferenzen über den Daten zu ermöglichen. Ontologien sind in vielen Kerndisziplinen (Informatik, künstlicheIntelligenz-Forschung, Softwaretechnik) und etlichen Fachwissenschaften verbreitete Hintergrundressourcen. Parole In der strukturalistischen Sprachtheorie werden unter Parole die konkreten Sprechereignisse gefasst, die auf der Grundlage des abstrakten Zeichensystems einer Sprache, der L ANGUE, gebildet werden. Es bestehen Analogien zum Begriff der Performanz in der generativen Transformationsgrammatik. Parsen Das Parsen bezeichnet allgemein den Prozess der syntaktischen Textanalyse. In der Psycholinguistik untersucht man das menschliche Parsen, in der Computerlinguistik das maschinelle. Ein PARSER ist ein Computerprogramm, das Texten eine syntaktische Analyse zuweist, z.B. in der Form eines Phrasenstruktur- oder Dependenzbaums. Geparst werden kann nicht nur natürliche Sprache, sondern auch stärker formalisierte Sprachen wie die von Computerprogrammen (Programmiersprachen) oder von Wörterbuchartikeln. Phrasem Ein Phrasem bezeichnet eine sprachliche Wendung, die aus mehreren Wörtern besteht wie z.B. einen Bären aufbinden. Die Bedeutung des Idioms lässt sich nicht aus den Bedeutungen der einzelnen Wörter erschließen, d.h. seine Bildung ist nicht transparent, und ein Sprecher des

326

Glossar

Deutschen muss lernen, dass einen Bären aufbinden so etwas wie belügen bedeutet. Interessant ist auch die relative Starrheit der in dem Idiom enthaltenen Elemente: So wird man jemandem kaum zwei Bären aufbinden, einen Braunbären aufbinden oder Bären aufladen. Polysemie Unter Polysemie versteht man die Mehrdeutigkeit von Wörtern: So kann Birne auf eine Frucht oder eine Glühbirne referieren. Liegen die Bedeutungen eines polysemen Wortes sehr weit auseinander wie bei Schloss (‚Türschloss‘) und Schloss (‚Gebäude‘), spricht man von Homonymen. Schwierig ist die Abgrenzung polysemer Bedeutungen in Lexikologie und Lexikographie: Wann ist eine Bedeutungsnuancierung, wann eine neue Lesart anzunehmen? PP-Attachment Unter PP-Attachment versteht man die Zuordnung einer Präpositionalphrase zu einer Verbalphrase oder einer Nominalphrase. Dabei kann es zu Ambiguitäten kommen. Ein Beispiel: Er (lieh sich) (ein Buch von Ernst Bloch) oder Er (lieh sich) (ein Buch) (von Ernst Bloch). Printwörterbuch Unter einem Printwörterbuch versteht man ein Wörterbuch, das auf Papier publiziert wird. Der Terminus wurde in Abgrenzung zu lexikalischen Ressourcen eingeführt, die im elektronischen Medium bzw. auf anderen Datenträgern, z.B. Disketten oder CD-ROM, publiziert werden. Letztere nennt man auch ELEKTRONISCHE W ÖRTERBÜCHER. Qualia Der Terminus geht auf einen Begriff von Aristoteles zurück, der ihn zur Explanation eines Objektes oder einer Relation in Bezug auf vier essenzielle Bedeutungskategorien eingeführt hat: mit KONSTITUTIVER , FORMALER , TELISCHER und AGENTIVER ROLLE . Pustejovsky hat in seiner Theorie des Generativen Lexikons die Qualiastruktur als wesentliches Beschreibungsinstrumentarium für die Repräsentation der lexikalischen Semantik von Nominalen etabliert. reguläre Polysemie Reguläre Polysemie kann für Gruppen von Nomina festgestellt werden, die sich vorhersagbar polysem verhalten. Z.B. haben Bildungseinrichtungen denotierende Nomina wie Schule, Universität, Privatakademie gleichermaßen Lesarten, die auf die Institution, das Gebäude, die Gesamtheit aller dort tätigen Menschen, etc. referieren. Dieser systematische Zusammenhang kann durch eine spezifische lexikalische Regel, die auf dem Grundeintrag operiert, ausgedrückt werden. Rektion Mit Rektion wird die Eigenschaft syntaktischer Einheiten, vor allem der Verbalphrasen, den Kasus abhängiger Elemente zu bestimmen, bezeichnet. Schätzer Der Schätzer ist eine Funktion, mit der die Wahrscheinlichkeit eines Versuchsausgangs möglichst zuverlässig abgeschätzt wird. Ein wichtiger Schätzer für das Aufreten eines Versuchsausgangs ist die relative Häufigkeit, mit der dieser Ausgang beobachtet wurde. Da die theoretische Bestimmung eines Schätzers auf Grundlage von n Zufallsgrößen und den

Glossar

327

ihnen zugrunde liegenden Verteilungen geschieht und eine Verarbeitung der Beobachtungsdaten, der möglichen Realisierungen der n Zufallsgrößen, in einem statistischen Experiment dargestellt wird, müssen an einen Schätzer – als Zufallsgröße betrachtet – mehrere Anforderungen gestellt werden, deren wichtigste Erwartungstreue und Konsistenz sind. Ein erwartungstreuer Schätzer liefert wenigstens im Mittel den richtigen Wert E Pˆ (X1 , . . . , Xn ) = P

(10)

das heißt, dass er keinen systematischen Fehler enthält. Ein konsistenter Schätzer liefert desto bessere Ergebnisse, je größer die Zahl der Beobachtungen ist. Schwa-Laut Der Schwa-Laut ist ein mit neutraler Zungenstellung gebildeter unbetonter Vokal. Der Schwa-Laut wird in vielen flektierten Formen (regulär) ausgelassen, vgl. dunkel → dunkle; adelig → adlig. Selektionsrestriktion/Selektionspräferenz Eine Selektionsrestriktion, oder, in abgeschwächter Form, Selektionspräferenz, die als Eigenschaft eines sprachlichen Zeichens spezifiziert wird, erlaubt die Definition von Eigenschaften der sprachlichen Zeichen, mit denen es sich verbindet. Zum Beispiel hat das Verb warten eine klare Präferenz für belebte Subjektreferenten. Unbelebte Subjekte sind nicht ausgeschlossen, bilden aber einen markierten Fall. Semantic Web Das Semantic Web bezeichnet die auf Berner-Lee (2001) zurückgehende Initiative zur Erweiterung des World Wide Web (WWW) um Metadaten, welche die Semantik der Web-Inhalte in formaler Hinsicht erfassen können (http://www.w3.org/2001/sw/). Daten sollen im WWW in einer für Maschinen verarbeitbaren semantischen Repräsentation vorliegen, so dass nicht nur Zeichenketten auffindbar sind, sondern Bedeutungsinhalte erschlossen werden können. semantische Netze Semantische Netze sind als Vorläufer der Ontologien aufzufassen, welche seit Quillian im Rahmen der künstliche-IntelligenzForschung und Informatik kognitiv inspirierte formale Modelle zur Repräsentation von Konzepten und Relationen bereitstellen. Semantische Netze sind daher eng mit dem Kontext der Wissensrepräsentation verbunden. Sie bestehen aus Knoten (Konzepten) und Kanten (Beziehungen zwischen Knoten), deren Zahl und Semantik in spezifischen Modellen festzulegen ist. John F. Sowa hat das Szenario semantischer Netze über einen langen Zeitraum entscheidend mitgeprägt. semantische Relation Eine semantische Relation ist eine Beziehung, die zwischen zwei oder mehr lexikalischen Einheiten aufgrund ihrer lexikalisch-semantischen Eigenschaften besteht. Beispiele für semantische Relationen sind: Synonymie, Antonymie, Hyperonymie, Hyponymie.

328

Glossar

Sinn Sinn bezeichnet bei Frege die intensionale Bedeutung eines Wortes im Gegensatz zur Bedeutung, der Extension eines Ausdruckes. Wir gebrauchen S INN allerdings nicht kontrastiv, sondern als Übersetzung von SEN SE (‚Lesart‘). Jede lexikalische Einheit weist z.B. eine spezifische Lesart auf. sinnrelational Von einem sinnrelationalen Ansatz spricht man häufig in Abgrenzung zu einem dekompositorischen bzw. komponentiellen Vorgehen in der semantischen Analyse. Im Mittelpunkt stehen die semantischen Beziehungen zwischen Wörtern, die durch Über- bzw. Unterordnung, Gegenteiligkeit, Teil-Ganzes-Beziehungen etc. gekennzeichnet sind. Die Bedeutung eines Wortes ergibt sich aus der Gesamtheit der semantischen Beziehungen zu anderen Wörtern im Sprachsystem. Subkategorisierung Als Subkategorisierung bezeichnet man die Spezifizierung lexikalischer Kategorien in syntaktisch oder semantisch motivierte Subklassen, die den Verträglichkeitsbeziehungen zwischen Einheiten bestimmter syntaktischer Funktionen im Satz entsprechen. Synset Ein Synset ist eine Menge synonymer lexikalischer Zeichen. In Wortnetzen vom Typ des Princeton WordNet repräsentieren Synsets Konzepte und sind somit die Trägermenge konzeptueller Relationen. syntagmatisch Dieser Begriff ist von S YNTAGMA abgeleitet und bezieht sich auf die kombinatorischen Eigenschaften lexikalischer Einheiten im Satz, etwa das Auftreten prädikativer Adjektive mit den modifizierten Nomina. Der korrespondierende kontrastive Term ist PARADIGMATISCH. t-Test Dieser Test kann angewendet werden, wenn die Stichprobe t-verteilt ist. Die t-Verteilung ist Z x Ftn (x) = (11) ftn (ζ) dζ −∞

Dabei bezeichnet n die Anzahl der Freiheitsgrade, die sich als Differenz von Stichprobenumfang und Anzahl der zu testenden Parameter bestimmen lässt. Ist n, also der Stichprobenumfang, groß, dann nähert sich die tVerteilung der Standardnormalverteilung an. Mit der Standardnormalverteilung teilt die t-Verteilung die Eigenschaft, symmetrisch um den Nullpunkt verteilt zu sein, das heißt, dass der Erwartungswert der Standardnormalverteilung gerade gleich Null ist und die Varianz n für n≥3 (12) n−2 Die Einzelwerte einer t-verteilten Stichprobe müssen unabhängig voneinander und normalverteilt sein. Der t-Test wird für den Vergleich der Mittelwerte von Stichprobe und Grundgesamtheit bei unbekannter Varianz dieser Grundgesamtheit angewendet. Es kann die Nullhypothese geprüft werden, ob eine Stichprobe einer normalverteilten Grundgesamtheit mit

Glossar

329

gegebenem Erwartungswert entstammt. Die Teststatistik lautet: t=

Xn − µ √ n Sn

(13)

wobei X n den Mittelwert der Stichprobe bezeichnet, n die Größe der Stichprobe, µ den Erwartungswert der Grundgesamtheit und Sn die Stichprobenvarianz als Schätzer der Standardabweichung. Die Nullhypothese wird dabei zum Signifikanzniveau α verworfen, wenn t einen kritischen Wert überschreitet. Der kritische Wert kann aufgrund der Freiheitsgrade der t-Verteilung und des Wertes für α ermittelt werden. Tag Ein Tag, auch Etikett oder Bezeichner genannt, benennt ein Element. In XML wird ein Element in ein Anfangstag und ein Endetag eingeschlossen. Leere Elemente werden durch ein besonders gekennzeichnetes Anfangstag markiert. Tagging/Wortartentagging Beim Tagging wird jedem Wort in einem Text eine Wortart zugewiesen. Dies geschieht in Form einer Etikette (TAG), die an jedes Textwort angehängt wird. Das Tagging setzt die Segmentierung eines Textes in Textwörter (Tokenisierung) voraus. Für das Tagging benötigt werden eine Menge von Wortartentags (Tagset) und für die meisten Verfahren ein Lexikon, in dem Wörtern die möglichen Wortarten zugeschrieben werden. Tagset Die Liste aller morphosyntaktischen, grammatischen oder funktionalen Label, die bei einer Annotation verwendet werden. Taxonomie Eine Taxonomie ist eine sprachliche Begriffshierarchie, basierend auf asymmetrischen Sinnrelationen wie Hyperonymie und Holonymie. Der Begriff stammt aus der Biologie zur Klassifikation der Lebewesen hinsichtlich ihrer angenommenen Verwandtschaft und ist auf andere systematisch strukturierbare Bereiche wie lexikalische Hierarchien übertragen worden. Thesaurus Ein Thesaurus ist eine nach Sachgebieten bzw. nach der Ähnlichkeit der Bedeutung der kodifizierten Wörter gegliederte lexikalische Ressource. Top-Level-Ontologie Eine Top-Level-Ontologie ist eine allgemeinsprachlich ausgerichtete Konzeptualisierung meist recht generischer Begriffe, welche die Strukturierung der Welt beschreiben. Z.B. wird die fundamentale Unterscheidung zwischen PHYSICAL vs. ABSTRACT (Dinge, die in Raum und Zeit verortet, also konkret sind, vs. Dinge, die es nicht sind) weiter differenziert durch Aufteilung von PHYSICAL in OBJECT und PRO CESS usw. Top-Level-Ontologien sind meist mit Domänen-Ontologien verknüpfbar. Transfermodell Das Transfermodell bezeichnet eine klassische Methode der maschinellen Übersetzung, die im Gegensatz zur Interlingua-Metho-

330

Glossar

de Bezug auf ein spezifisches Sprachpaar nimmt. Zuerst wird die grammatische Strukturbeschreibung des Quelltextes erzeugt, aus der (meist) eine semantische Struktur abgeleitet wird. Danach wird diese Struktur in die Zielsprache transferiert. In der Zielsprache werden aus der semantischen Struktur grammatikalische Sätze generiert. Type Shift Der Terminus bezieht sich auf einen Typen verändernden Prozess in Bezug auf ein Argument innerhalb des generativen Lexikons durch entsprechende Regeln. Ein Verb wie begin (‚anfangen‘) verlangt ein Ereignisargument als Ergänzung; im Satz John began the book ist aber mit Buch nur ein physisches Objekt gegeben. Die Ereignisinterpretation lässt sich nur über die telische Rolle von book (read, write) konstruieren. Umlaut Mit Umlaut wird der Prozess bzw. das Ergebnis der Angleichung des Vokals der Haupttonsilbe an den Vokal der folgenden, unbetonten Silbe (gut → Güt-e, güt-ig) beschrieben. Umlautung tritt auch bei Diphthongen auf (laufen → Läuf-er, läuf-ig). Umtext Umtexte bezeichnen im Wörterbuch enthaltene Informationen, die außerhalb der Makro-, Mikro- und Verweisstrukturen liegen. So können Grammatiken, Benutzerhinweise, Glossare, Projektinformationen etc. im Wörterbuch mögliche Umtexte sein. Verweis Ein Verweis ist ein typographisch markierter Zeiger eines Lexikoneintrages auf einen anderen lexikographischen Eintrag im Wörterbuch. Er kann in morphologischer Hinsicht auf das Lemmazeichen selbst bezogen sein und eine Relation zu derivierten Formen oder Basisformen angeben oder auch eine semantische Relation zwischen lexikalischen Einheiten oder Lexemen wiedergeben. Verweise konstituieren die Mesostruktur eines Wörterbuches. Wahrscheinlichkeit Der Begriff wurde aus der Stochastik übernommen. Die Wahrscheinlichkeit des Eintretens eines Ereignisses wird auf einen numerischen Wert auf einer Skala zwischen 0 und 1 abgebildet, wobei 1 die absolute Sicherheit des Eintretens des Ereignisses unter den gegebenen Bedingungen charakterisiert und 0 die absolute Sicherheit des Nichteintretens. Es liegt in der Natur der Sache, d.h. des unvollständigen Wissens des Beobachtenden, dass der exakte Wert dieser Größe unbekannt ist. Er wird im Allgemeinen aus den vorliegenden Daten beobachteter Versuchsausgänge geschätzt. Die Wahrscheinlichkeit wird als Funktion P einer Zufallsvariablen bzw. einer bestimmten Ausprägung notiert (z.B. P (x = 3) = 0, 005 als die Wahrscheinlichkeit, dass der Wert einer Zufallsvariablen 3 beträgt). Wahrscheinlichkeitsverteilungen Unter der Wahrscheinlichkeitsverteilung einer Zufallsvariablen versteht man die nicht bekannte Verteilung der möglichen Versuchsausgänge, d.h. den relativen Anteil einer Ausprägung oder einer Menge von Ausprägungen der Zufallsvariablen an der Ge-

Glossar

331

samtanzahl der Versuchsausgänge. Über die Verteilungsfunktion F wird im Falle einer diskret verteilten Zufallsvariable jeder Ausprägung oder Gruppe von Ausprägungen ein Wahrscheinlichkeitswert zugeordnet (z.B. weist die Verteilungsfunktion bei der Verteilung, die dem Wurf mit einem „gerechten“ Würfel zugrunde liegt, jedem der sechs möglichen Ausprägungen den Wert 1/6 zu, und den Ausprägungen P < 3 den Wert 1/3: F (X < 3) = 0, 333333). Im Fall einer stetig verteilten Zufallsvariablen kann nicht einem einzelnen Wert der Variablen eine Wahrscheinlichkeit zugeordnet werden, sondern lediglich einem bestimmten Bereich von Werten eine Wahrscheinlichkeitsdichte: Z t fx (ζ) dζ Fx (t) = (14) −∞

In diesem Fall bezeichnet Fx (t) die Verteilungsfunktion und fx (ζ) die Wahrscheinlichkeitsdichte. Zu dem statistischen Modell unter welches ein Experiment subsumiert wird, gehört auch die Wahrscheinlichkeitsverteilung der Zufallsvariablen. Wortform Eine Wortform ist ein wortwertiges sprachliches Zeichen, das in einem Text auftritt und deshalb alle im gegebenen Kontext notwendigen morphosyntaktischen Attribute trägt. Diese Attribute können in der Wortform durch Flexionsaffixe (Flexive) oder durch stammverändernde Operationen wie Umlautung und Ablautung kodiert sein. Wortnetz Ein Wortnetz ist eine lexikalische Ressource, in der die lexikalischen Zeichen nicht ausdrucksseitig, sondern inhaltsseitig, also nach ihrer Bedeutung angeordnet sind. Charakteristisch ist ein dichtes Geflecht von lexikalisch-semantischen oder konzeptuellen Beziehungen zwischen den lexikalischen Zeichen. Bekannte Wortnetze sind das englische WordNet, das in Princeton entwickelt wurde und wird, sowie das deutsche GermaNet. Wortnetze gibt es mittlerweile für eine Vielzahl von Sprachen. Worttoken, Token Ein Worttoken bezeichnet das Vorkommen eines Wortes an einer bestimmten Stelle im Korpus. Worttype, Type In einem Worttype werden die Token eines Korpus zusammengefasst, die nach einem festgelegten Kriterium ähnlich oder gleich sind, z.B. Wörter mit gleicher orthographischer Form. Zeichenkette Eine Zeichenkette in einem Text oder Korpus ist eine Folge alphanumerischer Zeichen zwischen Begrenzerzeichen. Eine Zeichenkette kann ein Wort instantiieren (z.B. Tageszeitung) oder ein Nichtwort (z.B. c44e8qz). Zipfsches Gesetz Das Zipfsche Gesetz ist ein Modell, mit dessen Hilfe man den Wert bestimmter Größen, z.B. Worttypes, die in eine Rangfolge gebracht werden, aus ihrem Rang abschätzen kann. Rang und Häufigkeit eines Elements verhalten sich annähernd umgekehrt proportional zuein-

332

Glossar

ander. Häufige Verwendung findet das Gesetz in der Korpuslinguistik und Quantitativen Linguistik, wo die Häufigkeit von Wörtern in einem Text(korpus) zur Rangfolge in Beziehung gesetzt wird. Zufallsvariable Eine Zufallsvariable oder äquivalente Zufallsgröße bezeichnet eine messbare Abbildung von einem Ereignisraum in einen Zahlenraum. Sie werden durch Großbuchstaben dargestellt (z.B. X), auf eine bestimmte Ausprägung der Zufallsvariablen wird mit dem entsprechenden Kleinbuchstaben referiert (z.B. x), auf Vektoren von Zufallsvariablen durch Indizierung der Variablen (z.B. X1 , X2 , . . . , Xi ). Die Zahl der möglichen Versuchsausgänge bestimmt den Wertebereich der Zufallsvariablen. Ist die Zahl der Versuchsausgänge endlich oder abzählbar unendlich, dann spricht man von einer diskret verteilten Zufallsvariablen, ist diese Zahl überabzählbar unendlich, spricht man von einer stetig verteilten Variablen. Zusammenrückung In der Wortbildung: substantivierte syntaktische Fügungen, bei denen das Letztglied nicht die Wortart bestimmt (im Gegensatz zur Komposition); zum Beispiel: Vaterunser, Gottseibeiuns, Taugenichts. Zwei-Ebenen-Morphologie Verfahren, bei dem Wortformen durch reguläre Ableitungen aus der Repräsentation einer Grundform auf lexikalischer Ebene gebildet werden. Der Prozess ist reversibel, es können also auch Wortformen auf ihre Grundformen abgebildet werden. Die Zwei-EbenenMorphologie wurde von Kimmo Koskenniemi entwickelt. Zwei-Ebenen-Semantik Die Zwei-Ebenen-Semantik wurde von Bierwisch zunächst für die Beschreibung von Adjektiven und polysemen Nomina entwickelt und bezeichnet ein zweistufiges Semantikmodell mit den Ebenen der Semantischen Form (SF) und der Konzeptuellen Struktur (CS). Die Semantische Form fungiert als Schnittstelle zwischen der Grammatik und dem konzeptuellen System, das auch andere als sprachliche Informationen verarbeitet wie z.B. spatiales und enzyklopädisches Wissen. Wunderlich hat umfassende Verbanalysen im Rahmen der Zwei-EbenenSemantik durchgeführt.

Literaturverzeichnis Abe, Naoke und Li, Hang (1996): “Learning Word Association Norms Using Tree Cut Pair Models”. In: Proceedings of the 13th International Conference on Machine Learning. Adams, Douglas (1980): The restaurant at the end of the Universe: the hitch hiker’s guide to the Galaxy 2. London: Pan. Agirre, Eneko und Edmonds, Philip (Herausgeber) (2006): Word sense disambiguation: algorithms and applications. Berlin: Springer. Agirre, Eneko und Martinez, David (2002): “Integrating selectional preferences in WordNet”. In: Proceedings of the First International WordNet Conference. Mysore, India. Agricola, Christiane und Agricola, Erhard (Herausgeber) (1992): Duden Wörter und Gegenwörter: Wörterbuch der sprachlichen Gegensätze. Mannheim: Duden Verlag. 2. Auflage. Allan, Keith (1995): “What names tell about the lexicon and the encyclopedia”. Lexicology 1: S. 280–325. Apresjan, Jurij Derenikovi (1973): “Regular Polysemy”. Linguistics 142: S. 5–32. Baayen, Harald (2001): Word Frequency Distributions. Dordrecht: Kluwer. Baker, Collin F.; Fillmore, Charles J. und Cronin, Beau (2003): “The Structure of the FrameNet Data Base”. Int. Journal of Lexicography 16 (3): S. 281–296. Bergenholtz, Henning und Mugdan, Joachim (1979): Einführung in die Morphologie. Stuttgart: Kohlhammer. Berners-Lee, Tim; Hendler, James und Lassila, Ora (2001): “The Semantic Web”. Scientific American http: //www.sciam.com/article.cfm?articleID= 00048144-10D2-1C70-84A9809EC588EF21. Bertelsmann (2003): Wahrig digital: Die deutsche Rechtschreibung. Gütersloh: Bertelsmann. Bhatt, Christa (1991): Einführung in die Morphologie. Hürth-Efferen: Gabel. Bierwisch, Manfred (1983): “Semantische und konzeptuelle Repräsentationen lexikalischer Einheiten”. In: Untersuchungen zur Semantik. herausgegeben von Motsch, Wolfgang und Ruzicka, Rudolf. Berlin: AkademieVerlag. S. 61–69. Bierwisch, Manfred und Lang, Ewald (1987): “ Etwas länger – viel tiefer – immer weiter: Epilog zum Dimensionsadjektiveprojekt”. In: Grammatische und konzeptuelle Aspekte von Dimensionsadjektiven. Vol. XXVI + XXVII of studia grammatica. herausgegeben von Bierwisch, Manfred und Lang, Ewald. Berlin: Akademie-Verlag. S. 649–699.

334

Literaturverzeichnis

Boas, Hans C. (2005): “Semantic Frames as Interlingual Representations for Multilingual Lexical Databases”. Int. Journal of Lexicography 18 (4): S. 445–478. Boguraev, Branimir und Briscoe, Ted (1989): Computational lexicography for natural language processing. London: Longman. Boguraev, Branimir und Pustejovsky, James (Herausgeber) (1996a): Corpus Processing for Lexical Acquisition. Cambridge, Mass. und London: MIT Press. Boguraev, Branimir und Pustejovsky, James (1996b): “Issues in Text-based Lexicon Acquisition”. In: Corpus Processing for Lexical Acquisition. herausgegeben von Boguraev, Branimir und Pustejovsky, James. S. 3–17. Bolinger, David (1965): “The atomization of meaning”. Language 41: S. 555–573. Boos, Evelyn; Friedrich, Sandra und Feldbaum, Matthias (Herausgeber) (2000): Neues Großes Lexikon in Farbe. Trautwein Lexikon Edition, in Compton’s Interaktives Lexikon Infopedia. München: The Learning Company. 5. Auflage. Brachman, Ronald und Schmolze, James G. (1985): “An Overview of the KL-ONE Knowledge Representation system”. Cognitive Science 9 (2): S. 171–216. Brent, Michael R. (1993): “From Grammar to Lexicon: Unsupervised Learning of Lexical Syntax”. Computational Linguistics 19 (2): S. 243–262. Briscoe, Ted und Copestake, Ann (1991): “Sense Extensions as Lexical Rules”. In: Proceedings of the IJCAI Workshop on Computational Approaches to Non-Literal Language. herausgegeben von Fass, Dan; Hinkelman, Elizabeth und Martin, James. Sydney, Australia. Technical Report CU-CS550-91, Department of Computer Science, University of Colorado, Boulder, Colorado. S. 12–20. Brockhaus-Redaktion (Herausgeber) (1968): Der neue Brockhaus. Lexikon und Wörterbuch in fünf Bänden und einem Atlas. Wiesbaden: Brockhaus Verlag. 4. Auflage. Brockhaus-Redaktion (Herausgeber) (1996): Brockhaus – die Enzyklopädie in 30 Bänden. Leipzig und andere: Brockhaus Verlag. 20. Auflage. Brugère-Trélat, Vincent (Herausgeber) (1980): Dictionnaire Hachette. Langue, encyclopedie, noms propres. Paris: Hachette. 5. Auflage. Brundage, Jennifer; Kresse, Maren; Schwall, Ulrike und Storrer, Angelika (1992): “Multiword Lexemes: A Monolingual and Contrastive Typology for NLP and MT”. Technischer Bericht. IBM Heidelberg, IBM-TR-80.92029. Buitelaar, Paul (1998): CORELEX: Systematic Polysemy and Underspecification. Dissertation. Brandeis University. http://www.dfki.de/ ~paulb/pub.html.

Literaturverzeichnis

335

Burchardt, Aljoscha; Erk, Katrin; Frank, Anette; Kowalski, Andrea; Padó, Sebastian und Pinkal, Manfred (2006): “The SALSA corpus: a German corpus resource for lexical semantics”. In: Proceedings of LREC 2006. Genoa, Italy. Burger, Harald; Buhofer, Annelies und Sialm, Ambros (Herausgeber) (2007): Handbuch Phraseologie. Band 28 von Handbücher zur Sprach- und Kommunikationswissenschaft. Berlin und New York: de Gruyter. Bußmann, Hadumod (1990): Lexikon der Sprachwissenschaft. Stuttgart: Kröner. Calzolari, Federico; Mammini, Michele und Monachini, Monica (2004): “Unifying Lexicons in view of a Phonological and Morphological Lexical DB”. In: Proceedings of the Fourth International Conference on Language Resources and Evaluation, Lisbon, Portugal, May 2004. LREC. CED (1995): Collins Electronic English Dictionary and Thesaurus. Stuttgart: Klett. Chaffin, Roger (1992): “The Concept of a Semantic Relation”. In: Frames, Fields, and Contrasts. New Essays in Semantic and Lexical Organization. herausgegeben von Lehrer, Adrienne und Kittay, Eva Fedder. Hillsdale: Lawrence Erlbaum Paublishers. S. 253–288. Chomsky, Noam (1965): Aspects of the Theory of Syntax. MIT Press: Cambridge, Mass. Chomsky, Noam (1969): Aspekte der Syntax-Theorie. Frankfurt: Suhrkamp Verlag. Chomsky, Noam (1970): “Remarks on Nominalizations”. In: Readings in English transformational grammar. herausgegeben von Jacobs, Roderick A. und Rosenbaum, Peter S. Waltham, MA: Ginn & Company. S. 184–221. Church, Kenneth Ward; Gale, William; Hanks, Patrick und Hindle, Donald (1991): “Using statistics in lexical analysis”. In: Exploiting On-Line Resources to Build a Lexicon. herausgegeben von Zernik, Uri. New York: Lawrence Erlbaum. S. 115–164. Clark, Eve V. (1993): The Lexicon in Acquisition. Cambridge: Cambridge University Press. Copestake, Ann und Briscoe, Ted (1995): “Semi-productive polysemy and sense extensions”. Journal of Semantics 1 (12): S. 15–67. Copestake, Ann und Briscoe, Ted (1999): “Lexical Rules in Constraint-Based Grammars”. Computational Linguistics 1 (1): S. 1–42. Cruse, Donald A. (1986): Lexical Semantics. Cambridge: Cambridge University Press. Daelemans, Walter (1995): “Memory-Based Lexical Acquisition and Processing”. In: Machine Translation and the Lexicon. Third International

336

Literaturverzeichnis

EAMT Workshop, Heidelberg, April 1993. herausgegeben von Steffens, Petra. Berlin und andere: Springer. S. 85–98. Daelemans, Walter (2004): “Computational Linguistics”. In: Morphologie. Morphology. Ein internationales Handbuch zur Flexion und Wortbildung. An International Handbook on Inflection and Word-Formation. 2. Teilband. herausgegeben von Booij, Geert; Lehmann, Christian; Mugdan, Joachim und Skopeteas, Stavros. Berlin und New York: de Gruyter. S. 1893–1900. Daelemans, Walter und Durieux, Gert (2000): “Inductive Lexica”. In: Lexicon Development for Speech and Language Processing. herausgegeben von van Eynde, Frank und Gibbon, Dafydd. Dordrecht und andere: Kluwer. Nummer 12 in Text, Speech and Language Technology. S. 115–139. Daelemans, Walter; Zavrel, Jakub und van den Bosch, Antal (1999): “Forgetting exceptions is harmful in language learning”. Machine Learning 34: S. 11–43. de Buenaga Rodriguez, Manuel; Gomez-Hidalgo, José-Maria und DiazAgudo, Belén (1997): “Using WordNet to Complement Training Information in Text Categorization”. In: Proceedings of 2nd International Conference on Recent Adavances in NLP. RANLP’97. de Saussure, Ferdinand (2001): Grundfragen der allgemeinen Sprachwissenschaft. Berlin und New York: de Gruyter. 3. Auflage. Derwojedowa, Magdalena; Piasecki, Maciej; Szpakowicz, Stanisław und Zawisławska, Magdalena (2007): “Polish Wordnet on a Shoestring”. In: Datenstrukturen für linguistische Ressourcen und ihre Anwendungen. Proc. der GLDV Frühjahrstagung. herausgegeben von Rehm, Georg; Witt, Andreas und Lemnitzer, Lothar. Tübingen: Gunter Narr. S. 169–178. Dik, Simon C. (1978): Stepwise Lexical Decomposition. Lisse: Peter de Ridder Press. Drosdowski, Günther (Herausgeber) (1988): Duden Stilwörterbuch der deutschen Sprache: die Verwendung der Wörter im Satz. Mannheim: Duden Verlag. 7. Auflage. Dudenredaktion (Herausgeber) (1990): Duden Fremdwörterbuch. Mannheim: Duden Verlag. 5. Auflage. Dudenredaktion (Herausgeber) (1996): Duden – Deutsches Universalwörterbuch. Mannheim: Duden Verlag. 3. Auflage. Edmonds, Philip und Hirst, Graeme (2002): “Near-synonymy and lexical choice”. Computational Linguistics 28 (2): S. 105–144. Engelberg, Stefan und Lemnitzer, Lothar (2001): Einführung in die Lexikographie und Wörterbuchbenutzung. Tübingen: Stauffenburg. Evens, Martha (Herausgeber) (1992): Relational models of the lexicon: representing knowledge in semantic networks. Cambridge: Cambridge University Press.

Literaturverzeichnis

337

Evert, Stefan (2005): The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation. Universität Stuttgart. Evert, Stefan und Lüdeling, Anke (2001): “Measuring morphological productivity: Is automatic preprocessing sufficient?” In: Proceedings of the Corpus Linguistics 2001 Conference. herausgegeben von Rayson, Paul; Wilson, Andrew; McEnery, Tony et al. S. 167–175. Eynde, Frank van und Gibbon, Dafydd (Herausgeber) (2000): Lexicon Development for Speech and Language Processing. Nummer 12 in Text, Speech and Language Technology. Dordrecht und andere: Kluwer. Feldweg, Helmut; Hinrichs, Erhard und Storrer, Angelika (1993): “Korpusunterstützte Entwicklung lexikalischer Wissensbasen”. Sprache und Datenverarbeitung 17: S. 59–72. Fellbaum, Christiane (1998): WordNet: An Electronic Lexical Database. Cambridge, Mass.: MIT Press. Fellbaum, Christiane; Geyken, Alexander; Herold, Axel; Koerner, Fabian und Neumann, Gerald (2006): “Corpus-Based Studies of German Idioms and Light Verbs”. International Journal of Lexicography 19 (4): S. 349–361. Fillmore, Charles J. (1968): “The Case for Case”. In: Universals in Linguistic Theory. herausgegeben von Bach, Emmon und Harms, Robert T. New York: Holt, Rinehart & Winston. S. 1–88. Fillmore, Charles J. (1969): “Types of lexical information”. In: Studies in syntax and semantics. herausgegeben von Kiefer, Ferenc. Dordrecht: Reidel. S. 109–137. Fillmore, Charles J. (1976): “Frame semantics and the nature of language”. In: Annals of the New York Academy of Sciences: Conference on the Origin and Development of Language and Speech. Volume 280. S. 20–32. Fillmore, Charles J. (1985): “Frames and the semantics of understanding”. Quaderni di Semantica 6 (2): S. 222–254. Fillmore, Charles J. und Atkins, Sue (1992): “The Semantics of RISK and its Neighbors.” In: Frames, Fields and Contrasts: New Essays in Semantic and Lexical Organization. herausgegeben von Adrienne Lehrer und Eva Fedder Kittay. Hillsdale: Erlbaum. S. 75–102. Fillmore, Charles J. und Baker, Collin F. und Sato, Hiroaki (2002): “Seeing Arguments through Transparent Structures”. In: Proc. LREC 2002, Gran Canaria, May/June. S. 787–791. Firth, John Rupert (1957): “Modes of Meaning”. In: Papers in Linguistics 1934-1951. herausgegeben von Firth, John Rupert. London: Longmans. S. 190–215. Firth, John Rupert (1968a): “Descriptive Linguistics and the Study of English”. In: Selected papers of J.R. Firth 1952-1959. herausgegeben von Palmer, Frank. London: Longmans. S. 96–113.

338

Literaturverzeichnis

Firth, John Rupert (1968b): “A synopsis of Linguistic Theory”. In: Selected papers of J.R. Firth 1952-1959. herausgegeben von Palmer, Frank. London: Longmans. S. 168–205. Flickinger, Dan (1987): Lexical Rules in the hierarchical lexicon. Dissertation. Stanford University. Francopoulo, Gil (2005): “Extended examples of lexicons using LMF”. http://lirics.loria.fr/doc_pub/ ExtendedExamplesOfLexiconsUsingLMF29August05.pdf. Frawley, William (1981): “In defense of the dictionary”. Lingua 55: S. 53–61. Friedl, Jeffrey E.F. (2002): Mastering regular expressions. Beijing: O’Reilly. Fung, Pascale und Chen, Benfeng (2004): “BiFrameNet: Bilingual Frame Semantics Resource Construction by Cross-lingual Induction”. In: COLING04: S. 931–937. Geeraerts, Dirk (1988): “Cognitive Grammar and the history of lexical semantics”. In: Topics in cognitive linguistics. herausgegeben von RudzkaOstyn, Bryguda. Amsterdam: John Benjamins. S. 647–677. Geffroy, Annie; Lafon, Pierre; Seidel, Gill und Tournier, M. (1973): “Lexicometric Analysis of Co-occurrences”. In: The Computer and Literary Studies. herausgegeben von Aitken, A.J. et al. Edinburgh: Edinburgh University Press. S. 113–134. Geyken, Alexander (2005): “Das Wortinformationssystem des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS)”. BBAW Circular 32: S. 40. Gibbon, Dafydd (2001): “Lexika für multimodale Systeme”. In: Computerlinguistik und Sprachtechnologie. Eine Einführung. herausgegeben von Carstensen, Kai-Uwe et al. Heidelberg und Berlin: Spektrum, Akademischer Verlag. S. 394–401. Godard, Danièle und Jayez, Jacques (1993): “Towards a proper treatment of coercion phenomena”. In: Proc. sixth Conf. of the European Chapter of the ACL. ACL. S. 168–177. Götz, Dieter (Herausgeber) (1998): Langenscheidts Großwörterbuch Deutsch als Fremdsprache. Berlin u.a.: Langenscheidt. Greenbaum, Sydney (1970): Verb-Intensifier Collocations in English. An experimental approach. Den Haag und Paris. Gruber, Thomas R. (1993): “A translation approach to portable ontology specifications”. Knowledge Acquisition 5 (2): S. 199–220. Guarino, Nicola (1998): “Formal ontology and information systems”. In: FOIS98: S. 3–15. Haapalainen, Mariikka (1995): “GERTWOL und Morphologische Disambiguierung für das Deutsche”. In: Proceedings of the 10th Nordic Conference of Computational Linguistics. NODALIDA-95.

Literaturverzeichnis

339

Haapalainen, Mariikka und Majorin, Ari (1994): “GERTWOL: Ein System zur automatischen Wortformerkennung deutscher Wörter”. http://www.ifi.unizh.ch/CL/volk/LexMorphVorl/ Lexikon04.Gertwol.html. Habel, Christopher (1985): “Das Lexikon in der Künstlichen Intelligenz”. In: Handbuch der Lexikologie. herausgegeben von Schwarze, Christoph und Wunderlich, Dieter. Königstein: Athenäum. S. 441–474. Haiman, John (1980): “Dictionaries and encyclopedia”. Lingua 50: S. 329– 357. Hamp, Birgit und Feldweg, Helmut (1997): “GermaNet – a Lexical-Semantic Net for German”. In: Proceedings of the ACL/EACL-97 workshop on Automatic Information Extraction and Building of Lexical-Semantic Resources for NLP Applications. herausgegeben von Vossen, Piek; Calzolari, Nicoletta; Adriaens, Geert; Sanfilippo, Antonio und Wilks, Yorick. S. 9–15. Hartrumpf, Sven; Helbig, Hermann und Osswald, Rainer (2003): “The semantically based computer lexicon HaGenLex – Structure and technological environment”. Traitement automatique des langues 44 (2): S. 81–105. Hartung, Joachim (1993): Statistik. Lehr- und Handbuch der angewandten Statistik. München und Wien. 9. Auflage. Hauser, Ralf und Storrer, Angelika (1993): “Dictionary Entry Parsing Using the LexParse System”. Lexicographica 9: S. 174–219. Hausmann, Franz Josef (1985): “Kollokationen im deutschen Wörterbuch. Ein Beitrag zur Theorie des lexikographischen Beispiels”. In: Lexikographie und Grammatik. Akten des Essener Kolloquiums zur Grammatik im Wörterbuch, 28.–30.6 1984. herausgegeben von Bergenholtz, Henning und Mugdan, Joachim. Tübingen: Niemeyer. S. 118–129. Haß, Ulrike (Herausgeber) (2005): Grundfragen der elektronischen Lexikographie. eLexiko – das Online-Informationssystem zum deutschen Wortschatz. Berlin und andere: de Gruyter. Herold, Axel (2007): “Corpus Queries”. In: Idioms and Collocations: From Corpus to Electronical Lexical Resource. herausgegeben von Fellbaum, Christiane. Birmingham: Continuum. S. 123–158. Hesse, Wolfgang (2002): “Das aktuelle Schlagwort: Ontologie(n)”. Informatik Spektrum 25 (6): S. 477–480. Höhle, Tilman N. (1982a): Lexikalistische Syntax: die Aktiv-Passiv-Relation und andere Infinitkonstruktionen im Deutschen. Tübingen: Niemeyer. Höhle, Tilman N. (1982b): “Über Komposition und Derivation: zur Konstituentenstruktur von Wortbildungsprodukten im Deutschen”. ZS 1: S. 76–112. Hornby, Albert Sidney (1948): Oxford advanced learner’s dictionary of current English, 1st ed. Oxford: Oxford University Press. Hornby, Albert Sidney (1995): Oxford advanced learner’s dictionary of current English, 4th ed. Oxford: Oxford University Press.

340

Literaturverzeichnis

Ide, Nancy und Véronis, Jean (1998): “Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art”. Computational Linguistics 24 (1): S. 1–40. Ide, Nancy und Véronis, Jean (1993): “Extracting knowledge bases from machine-readable dictionaries: Have we wasted our time?” In: Int. Conf. on Building and Sharing of Very Large Scale Knowledge Bases (KB & KS ’93), Tokio, Japan. S. 257–266. Ide, Nancy und Véronis, Jean (1995): “Knowledge Extraction from MachineReadable Dictionaries: An Evaluation”. In: Machine Translation and the Lexicon. Third International EAMT Workshop. Heidelberg, Germany, April 1993. Proceedings. herausgegeben von Steffens, Petra. Berlin und andere: Springer. S. 19–34. ISO TC 37/SC4 (2006): “Language Resource Management – Lexical Markup Framework”. http://www.tagmatica.fr/doc/ ISO24613cdRev9.pdf. Jackendoff, Ray S. (1975): “Morphological and Semantic Regularities in the Lexicon”. Language 51: S. 639–671. Jackendoff, Ray S. (1990): Semantic Structures. Cambridge, Mass.: MIT Press. Juilland, Alphonse; Brodin, Dorothy und Davidovitch, Catherine (1970): Frequency dictionary of French words. den Haag: Mouton. Kaeding, Friedrich W. (1963): Häufigkeitswörterbuch der deutschen Sprache. Hamburg: Schnelle. Katz, Jerrold J. (1966): The philosophy of language. New York: Harper and Row. Katz, Jerrold J. und Fodor, Jerry A. (1963): “The Structure of a Semantic Theory”. Language 39: S. 170–210. Kecher, Christoph (2006): UML 2.0. Das umfassende Handbuch. Bonn: Galileo Computing. Kempcke, Günter (2000): Wörterbuch Deutsch als Fremdsprache. Berlin und andere: de Gruyter. Kilgarriff, Adam (1992): Polysemy. Dissertation. University of Sussex. http://www.kilgarriff.co.uk/publications/ 1992-K-thesis.pdf. Kilgarriff, Adam (1997): “I don’t believe in word senses”. Computers and the Humanities 31 (2): S. 91–113. Kilgarriff, Adam und Palmer, Martha (Herausgeber) (2000): Special Issue on SENSEVAL: Evaluating Word Sense Disambiguation Programs. Nummer 34 (1-2) in Computers and the Humanities. Dordrecht: Kluwer. Klappenbach, Ruth (Herausgeber) (1965): Wörterbuch der deutschen Gegenwartssprache. Berlin: Akademie-Verlag. Klett (1996): Pons-Globalwörterbuch Spanisch-Deutsch. Stuttgart: Klett.

Literaturverzeichnis

341

Klinkenberg, Jean-Marie (1983): “Problème de la synecdoque. Du sémantique à l’encyclopédique”. Le francais moderne 51: S. 289–299. Koskenniemi, Kimmo (1983): “Two-level morphology: A general computational model for word-form recognition and production”. Technischer Bericht. University of Helsinki, Department of General Linguistics. Kruse, Peter M.; Naujoks, André; Rösner, Dietmar und Kunze, Manuela (2005): “Clever Search: A WordNet Based Wrapper for Internet Search Engines”. In: Proceedings GLDV Tagung 2005. herausgegeben von Fisseni, Bernhard et al. Frankfurt: Peter Lang. S. 367–380. Kunze, Claudia (2004): “Lexikalisch-semantische Wortnetze”. In: Computerlinguistik und Sprachtechnologie: eine Einführung. herausgegeben von Carstensen, Kai-Uwe et al. Heidelberg und Berlin: Spektrum Verlag. S. 386–393. Kunze, Claudia und Naumann, Karin (1999-2007): “GermaNet”. http: //www.sfs.uni-tuebingen.de/lsd/. Langacker, Ronald W. (Herausgeber) (1987): Foundations of Cognitive Grammar, vol. 1. Theoretical prequisites. Stanford: Stanford University Press. Lara, Fernando Luis (1989): “Dictionnaire de langue, encyclopédie et dictionnaire encyclopédique: le sens de leur distinction”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 280–287. Lascarides, Alex und Copestake, Ann (1996): “Ambiguity and coherence”. Journal of Semantics 13 (1): S. 41–65. Leech, G. (1981): Semantics. Cambridge: Cambridge University Press. Lehr, Andrea (1996): Kollokationen in maschinenlesbaren Korpora. Ein operationales Analysemodell zum Aufbau lexikalischer Netze. Band 168 von RGL. Tübingen: Niemeyer. Lemnitzer, Lothar (1997): Extraktion komplexer Lexeme aus Textkorpora. Tübingen: Niemeyer. Lemnitzer, Lothar und Zinsmeister, Heike (2006): Korpuslinguistik. Tübingen: Gunter Narr. Lobin, Henning (2000): Informationsmodellierung in XML und SGML. Berlin: Springer. Lowe, John B.; Baker, Collin F. und Fillmore, Charles J. (1997): “A framesemantic approach to semantic annotation”. In: Proceedings of ACL SIGLEX Workshop on Tagging Text with Lexical Semantics. ACL. Washington, D.C. S. 18–24.

342

Literaturverzeichnis

Lüdeling, Anke und Evert, Stefan (2003): “Linguistic experience and productivity: corpus evidence for fine-grained distinctions”. In: Proceedings of the Corpus Linguistics 2003 conference. herausgegeben von Archer, Dawn; Rayson, Paul; Wilson, Andrew und McEnery, Tony. UCREL technical paper, no. 16. S. 475–483. Lüdeling, Anke; Evert, Stefan und Heid, Ulrich (2000): “On Measuring Morphological Productivity”. In: KONVENS-2000 – Sprachkommunikation. herausgegeben von Schukat-Talamazzini, Ernst G. und Zühlke, Werner. Berlin: VDE-Verlag. S. 215–220. Ludewig, Petra (1993): Inkrementelle wörterbuchbasierte Wortschatzerweiterungen in sprachverarbeitenden Systemen – Entwurf einer konstruktiven Lexikonkonzeption. Sankt Augustin: infix. Lyons, John (1977): Semantics. Cambridge, Mass.: MIT Press. Manning, Christopher D. (1993): “Automatic acquisition of a large subcategorization dictionary from corpora”. In: Proceedings 31st ACL. S. 235– 242. Manning, Christopher D. und Schütze, Hinrich (1999): Foundations of Statistical Natural Language Processing. Cambridge, Mass. und London: MIT Press. Mehler, Alexander (2004): “Quantitative Methoden”. In: Texttechnologie – Perspektiven und Anwendungen. herausgegeben von Lobin, Henning und Lemnitzer, Lothar. Tübingen: Stauffenburg. S. 83–107. Mel’ˇcuk, Igor A. (1981): “Meaning-text Models: a Recent Trend in Soviet Linguistics”. Annunal Review of Anthropology 10: S. 27–62. Mel’ˇcuk, Igor A. (Herausgeber) (1984-1992): Dictionnaire explicatif et combinatoire du français contemporain. 3 Vol. Montréal: Presse de l’Université de Montréal. Mel’ˇcuk, Igor A. (1998): “Collocations and Lexical Functions”. In: Phraseology: Theory, Analysis, and Applications. herausgegeben von Cowie, Anthony P. Oxford: Clarendon Press. S. 23–53. Mel’ˇcuk, Igor A. und Zolkovskij, Aleksandr K. (Herausgeber) (1984-1992): Explanatory Combinatorial Dictionary of Modern Russian. Wien: Wiener Slawistischer Almanach. Merlo, Paola und Stevenson, Suzanne (2001): “Automatic Verb Classification Based on Statistical Distribution of Argument Structure”. Computational Linguistics 27 (3): S. 273–306. Meurers, Detmar (1999): Lexical Generalizations in the Syntax of German non-finite Constructions. Dissertation. Universität Tübingen. Miller, George A. (1990): “Special Issue: WordNet – An on-line lexical database”. International Journal of Lexicography 3 (4). Mitchell, Tom D. (1997): Machine Learning. New York und andere: McGraw-Hill.

Literaturverzeichnis

343

Motsch, W. (1979): “Zum Status von Wortbildungsregularitäten”. DLRAV 20: S. 1–40. Motsch, Wolfgang (1999): Deutsche Wortbildung in Grundzügen. Berlin und New York: de Gruyter. Mugdan, Joachim (1989): “Information on Inflectional Morphology in the General Monolingual Dictionary”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 518–525. Müller, Wolfgang (1989): “Die Beschreibung von Affixen und Affixoiden im allgemeinen einsprachigen Wörterbuch”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 869–882. Müller, Wolfgang (1998): “Wörterbücher der Zukunft – oder: Terrae incognitae”. In: Wörterbücher in der Diskussion III. herausgegeben von Wiegand, Herbert Ernst. Tübingen: Niemeyer. S. 212–262. Müller-Spitzer, Carolin (2005): “Die Modellierung lexikografischer Daten und ihre Rolle im lexikografischen Prozess”. In: Grundfragen der elektronischen Lexikographie. eLexiko – das Online-Informationssystem zum deutschen Wortschatz. herausgegeben von Haß, Ulrike. Berlin und andere: de Gruyter. S. 36–54. Murphy, Lynne (2003): Semantic relations and the lexicon: antonymy, synonymy, and other paradigms. Cambridge: Cambridge University Press. Neff, Mary und Boguraev, Branimir (1990): “From Machine-Readable Dictionaries to Lexical Data Bases”. Technischer Bericht Research Report RC #16080 (71353) 8/31/90. IBM THOMAS J. WATSON Research Center. Yorktown Heights: New York. Nirenburg, Sergei und Raskin, Victor (2004): Ontological Semantics. Cambridge, Mass.: MIT Press. Noy, Natalya F. und McGuinness, Deborah L. (2001): “Ontology Development 101: A Guide to Creating Your First Ontology”. Technischer Bericht Technical Report KSL-01-05 and Technical Report SMI-2001-0880, March 2001. Stanford Knowledge Systems Laboratory and Stanford Medical Informatics. Stanford. Nunberg, Geoffrey (1978): The pragmatics of reference. Bloomington, Indiana: Indiana University Club.

344

Literaturverzeichnis

Nunberg, Geoffrey (1995): “Transfers of Meaning”. Journal of Semantics 12 (2): S. 109–132. Nunberg, Geoffrey; Sag, Ivan A. und Wasow, Thomas (1994): “Idioms”. Language 70: S. 109–132. Nunberg, Geoffrey und Zaenen, Annie (1992): “Systematic polysemy in lexicology and lexicography”. In: Proceedings of Euralex92. Tampere, Finland. S. 387–396. Oakes, Michael P. (1998): Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. Ogden, Charles K. und Richards, Ivor A. (1949): The Meaning of Meaning: A Study of the Influence of Language Upon Thought and of the Science of Symbolism. London: Routledge & Kegan Paul. Ostler, Nicholas und Atkins, Sue (1992): “Predictable meaning shift: some linguistic properties of lexical implication rules”. In: Lexical Semantics and Commonsense Reasoning. herausgegeben von Pustejovsky, James und Bergler, Susanne. New York: Springer-Verlag. S. 87–98. Peeters, Bert (2000): “Setting the scene. Recent milestones in the lexiconencyclopedia debate”. In: The lexicon-encyclopedia interface. herausgegeben von Peeters, Bert. Oxford: Elsevier Science. S. 1–53. Pethö, Gergely (2001): “What is Polysemy – A Survey of Current Research and Results”. In: Pragmatics and the Flexibility of Word Meaning. herausgegeben von Németh, Enikö und Bibok, Károly. Amsterdam: Elsevier Science. S. 175–224. Pinker, Steven (1984): Language learnability and language development. Cambridge, Mass.: Harvard University Press. Pinker, Steven (1989): Learnability and cognition: the acquisition of argument structure. Cambridge, Mass. und London: MIT Press. Pinker, Steven (1996): Der Sprachinstinkt. Wie der Geist die Sprache bildet. München: Kindler (übersetzt von Martina Wiese). Priss, Uta (2006): “Formal Concept Analysis in Information Science”. In: Annual Review of Information Science and Technology. herausgegeben von Cronin, Blaise. Medford, NJ: Information Today, Inc. & American Society for Information Science and Technology: Vol. 40. S. 521–543. Procter, Paul (Herausgeber) (1978): Longman dictionary of contemporary English, 3rd ed. London: Longman. Pulman, Steve G. (1983): Word Meaning and Belief. London und Canberra: Croom Helm. Pustejovsky, James (1989): “Current issues in computational lexical semantics”. In: Proceedings of the 4th European ACL. Manchester, England. S. 17–25. Pustejovsky, James (1991): “The Generative Lexicon”. Computational Linguistics 17 (4): S. 409–441.

Literaturverzeichnis

345

Pustejovsky, James und Bouillon, Pierrette (1995): “Aspectual Coercion and Logical Polysemy”. Journal of Semantics 12 (4): S. 133–162. Putnam, Hilary (1973): “Explanation and Reference”. Dordrecht: Reidel. S. 196–214. Quillian, M. Ross (1966): Semantic Memory. Dissertation. Carnegie Institute of Technology. Quine, Willard van Orman (1960): Word and Object. Cambridge, Mass.: MIT Press. Quine, Willard van Orman (1981): Theories and Things. Cambridge, Mass.: Harvard University Press. Quirk, Randolph (Herausgeber) (1995): Longman dictionary of contemporary English, 3rd ed. Harlow: Longman. Raskin, Victor (1985): “Linguistic and encyclopedic knowledge in text processing”. Quaderni di semantica 6: S. 92–102. Ravin, Yael (Herausgeber) (2002): Polysemy. Theoretical and computational approaches. Oxford: Oxford University Press. Resnik, Philip Stuart (1993): Selection and Information: A Class-Based Approach to Lexical Relationships. Dissertation. University of Pennsylvania. Rettig, Wolfgang (1989): “Die Wortbildungszusammenhänge im allgemeinen einsprachigen Wörterbuch”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 642–647. Reuland, Eric und Ankersmit, Frank (1993): Knowledge and Language. 3 vol. Dordrecht: Kluwer. Rey-Debove, Josette (1971): Étude linguistique et sémiotique des dictionnaires francais contemporains (Approaches to semiotics 13.). La Haye und Paris: Mouton de Gruyter. Ribas, Francesco (1994): “An Experiment on Learning Appropriate Selectional Restrictions from a Parsed Corpus”. In: Proceedings of COLING. Tokyo. Romary, Laurent (2003): “Implementing a data category registry within ISO TC37 – Technical note contributing to a future WD for ISO 12620-1”. http://www.jtc1sc36.org/doc/36N0581.pdf. Romary, Laurent; Francopoulo, Gil; Salmon-Alt, Susanne und Monachini, Monica (2006): “LMF Tutorial”. http://hnk.ffzg.hr/bibl/ lrec2006/tutorials/T02/LMF20Tutorial.pdf. Rosch, Eleanor (1978): “Principles of Categorization”. In: Cognition and Categorization. herausgegeben von Rosch, Eleanor und Lloyd, Barbara B. Hillsdale: Lawrence Erlbaum. S. 27–48.

346

Literaturverzeichnis

Ruoff, Arno (1990): Häufigkeitswörterbuch gesprochener Sprache, gesondert nach Wortarten: alphabetisch, rückläufig-alphabetisch und nach Häufigkeit geordnet. Tübingen: Niemeyer. Ruppenhofer, Josef; Ellsworth, Michael; Petruck, Miriam; Johnson, Christopher und Scheffczyk, Jan (2006): FrameNet II, Extended Theory and Practice. ICSI FrameNet Project Group. Berkeley, CA. http://framenet. icsi.berkeley.edu/. Sag, I. (1981): “Formal semantics and extra-linguistic context”. In: Radical Pragmatics. herausgegeben von Cole, Peter. New York: Academic Press. S. 273–294. Schaeder, Burkhard (1982): “Häufigkeiten und Häufigkeitsangaben in neuhochdeutschen Wörterbüchern. Zur Rolle von Frequenzuntersuchungen in der Lexikographie.” Germanistische Linguistik 1-4: S. 239–274. Schaeder, Burkhard (1989): “Diafrequente Markierungen im allgemeinen einsprachigen Wörterbuch”. In: Wörterbücher. Dictionaries. Dictionnaires. Ein internationales Handbuch zur Lexikographie. An International Encyclopedia of Lexicography. Encyclopédie internationale de lexicographie. 1. Teilband. herausgegeben von Hausmann, Franz Josef; Reichmann, Oskar; Wiegand, Herbert Ernst und Zgusta, Ladislav. Berlin und New York: de Gruyter. S. 689–693. Schmid, Helmut (2004): “SMOR: A German Computational Morphology Covering Derivation, Composition, and Inflection”. In: Proceedings of the Fourth International Conference on Language Resources and Evaluation, Lisbon, Portugal, May 2004. LREC. S. 1263–1266. Schnörch, Ulrich (2005): “Die eLexiko-Stichwortliste”. In: Grundfragen der elektronischen Lexikographie. eLexiko – das Online-Informationssystem zum deutschen Wortschatz. herausgegeben von Haß, Ulrike. Berlin und New York: de Gruyter. S. 71–90. Schulte im Walde, Sabine; Schmid, Helmut; Rooth, Mats; Riezler, Stefan und Prescher, Detlef (2001): “Statistical Grammar Models and Lexicon Acquisition”. In: Linguistic Form and its Computation. herausgegeben von Rohrer, Christian; Roßdeutscher, Antje und Kamp, Hans. Stanford: CSLI Publications. S. 389–440. Schwarz, Monika und Chur, Jeannette (2007): Semantik. Ein Arbeitsbuch. Tübingen: Gunter Narr. 5. Auflage. Segond, Frédérique; Valetto, Guiseppe und Breidt, Elisabeth (1995): “IDAREX: Formal Description of Multi-Word Lexemes with Regular Expressions”. http://citeseer.ist.psu.edu/segond95idarex. html. Siepmann, Dirk (2006): “Collocation, Colligation and Encoding Dictionaries. Part II: Lexicographical Aspects”. International Journal of Lexicography 19 (1): S. 1–39.

Literaturverzeichnis

347

Sinclair, John (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press. Smadja, Frank (1992): “XTRACT: An Overview”. Computers and the Humanities 26 (5-6): S. 399–414. Sowa, John (1983): Conceptual structures: information processing in mind and machine. Reading, Mass.: Addison-Wesley. Sowa, John F. (1991): Principles of Semantic Networks. Explorations in the Representation of Knowledge. San Mateo, California: Morgan Kaufmann Publishers. Staab, Steffen (2006): “Ontologies and the Semantic Web”. http: //www.uni-koblenz.de/~staab/Teaching/Tutorials/ SMBM-2006/103.htm. Staab, Steffen und Studer, Rudi (Herausgeber) (2004): Handbook on Ontologies. International Handbooks on Information Systems. Heidelberg: Springer. Stephen, Graham A. (1994): String Searching Algorithms. Singapore und andere: World Scientific. Storrer, Angelika (2006): “Funktionen von Nominalisierungsverbgefügen im Text. Eine korpusbasierte Fallstudie”. In: Von Intentionalität zur Bedeutung konventionalisierter Zeichen. Festschrift für Gisela Harras zum 65. Geburtstag. herausgegeben von Proost, Kristel und Winkler, Edeltraud. Tübingen: Gunter Narr. S. 147–178. Trost, Harald (2004): “Morphology”. In: The Oxford handbook of computational linguistics. herausgegeben von Mitkov, Ruslan. Oxford: Oxford University Press. S. 27–47. Tufi¸s, Dan; Cristea, Dan und Stamou, Sofia (2004): “BalkaNet: Aims, Methods, Results and Perspectives”. Romanian Journal of Information Science and Technology 7 (1-2): S. 9–45. Ullmann, Stephen (1962): Semantics: An introduction to the Science of Meaning. Oxford: Blackwell. van Assem, Mark; Gangemi, Aldo und Schreiber, Guus (2006): “RDF/OWL Representation of WordNet”. Technischer Bericht. http://www.w3. org/TR/2006/WD-wordnet-rdf-20060619/. Vennebusch, Eva (Herausgeber) (1980): Pons Collins Deutsch-Englisch, Englisch-Deutsch: Handwörterbuch. Stuttgart und Dresden: Klett Verlag. 2. Auflage. Verspoor, Karin M. (1997): Contextually-Dependent Lexical Semantics. Dissertation. University of Edinburgh. ftp://ftp.cogsci.ed.ac.uk/ pub/kversp/thesis.ps.gz. Viberg, Åke (2002): “Polysemy and disambiguation cues across languages. The case of Swedish føa and English get”. In: Lexis in contrast. heraus-

348

Literaturverzeichnis

gegeben von Altenberg, Bengt und Granger, Sylvaine. Amsterdam: Benjamins. S. 119–150. Vossen, Piek (1999): EuroWordNet: a mutlilingual database with lexicalsemantic networks. Dordrecht: Kluwer Academic Publishers. Vossen, Piek; Mejis, Willem und den Broeder, Marianne (1989): “Meaning and structure in dictionary definitions”. In: Computational Lexicography for Natural Language Processing. herausgegeben von Boguraev, Bran und Briscoe, Ted. New York: Longman. S. 171–192. Wagner, Andreas (2005): Learning Thematic Role Relations for Lexical Semantic Nets. Dissertation. Universität Tübingen. Wahrig, Gerhard (Herausgeber) (1997): Deutsches Wörterbuch. Gütersloh: Bertelsmann. Wahrig, Gerhard; Krämer, Hildegard und Zimmermann, Harald (1980-1984): Brockhaus-Wahrig deutsches Wörterbuch. 6 Bände. Wiesbaden und Stuttgart: Deutsche Verlags-Anstalt. Walter, Stephan (2001): Das Generative Lexikon: Pustejovskys Qualia Structures und die aitiai des Aristoteles – lexikalische Semantik im Rückgriff auf antike Gedanken? Diplomarbeit. Institut für Computerlinguistik. Universität des Saarlandes. Wanner, Leo und Mel’ˇcuk, Igor (1996): “Lexical Co-occurrence and Lexical Inheritance. Emotion Lexemes in German: A Lexicographic Case Study”. In: Lexical Functions in Lexicography and Natural Language Processing. herausgegeben von Wanner, Leo. Amsterdam: Benjamins. S. 209–278. Wanner, Leo und Mel’ˇcuk, Igor (2001): “Towards a Lexicographic Approach to Lexical Transfer in Machine Translation (Illustrated by the GermanRussian Language Pair)”. Machine Translation 16 (1): S. 21–87. Wehrle, Hugo und Eggers, Hans (1989): Deutscher Wortschatz. Ein Wegweiser zum treffenden Ausdruck. Stuttgart: Ernst Klett Verlag. West, Michael (1953): A general service list of english words. London: Longman. Wiegand, Herbert Ernst (1977): “Nachdenken über Wörterbücher. Aktuelle Probleme”. In: Nachdenken über Wörterbücher. herausgegeben von Drosdowski, Günther; Henne, Helmut und Wiegand, Herbert E. Mannheim und andere: Bibliographisches Institut. S. 51–102. Wiegand, Herbert Ernst (1989): “Der Begriff der Mikrostruktur: Geschichte, Probleme, Perspektiven”. In: Wörterbücher. Ein internationales Handbuch zur Lexikographie. herausgegeben von Hausmann, Franz J.; Reichmann, Oskar und Wiegand, Herbert E. Berlin und New York: de Gruyter. S. 409– 462. Wiegand, Herbert Ernst (1998): “Altes und Neues zur Makrostruktur”. In: Wörterbücher in der Diskussion III. Vorträge aus dem Heidelberger Lexi-

Literaturverzeichnis

349

kographischen Kolloquium. herausgegeben von Wiegand, Herbert E. Tübingen: Niemeyer. S. 348–372. Wierzbicka, Anna (1972): Semantic Primitives. Frankfurt: Athenäum. Wierzbicka, Anna (1985): Lexicography and conceptual analysis. Ann Arbor: Karoma. Wierzbicka, Anna (1992): “Semantic Primitives and Semantic Fields”. In: Frames, Fields, and Contrasts. New Essays in Semantic and Lexical Organization. herausgegeben von Lehrer, Adrienne und Eva Fedder Kittay. Hillsdale: Lawrence Erlbaum Publishers. S. 209–228. Wilensky, Robert (1991): “Extending the lexicon by exploiting subregularities”. Technischer Bericht. U.C. Berkeley Technical Report. University of California at Berkeley. Williams, Edward (1981): “On the Notions ‘Lexically Related’ and ‘Head of a Word’”. Linguistic Inquiry 12: S. 245–274. Wotjak, Barbara (Herausgeber) (1992): Verbale Phraseolexeme in System und Text. Tübingen: Niemeyer. Wright, Sue Ellen (oJ): “A Global Data Category Registry for Interoperable Language Resources”. http://www.tc37sc4.org/new_ doc/ISO_TC_37-4_N175_SEW-A_Global_Data_Category_ Registry.pdf. Wunderlich, Dieter (1996): “Models of lexical decomposition”. In: Lexical Structures and Language Use. herausgegeben von Weigand, Edda und Hundsnurscher, Franz. Tübingen: Niemeyer. S. 169–183. Wunderlich, Dieter (1997): “Cause and the structure of verbs”. Linguistic Inquiry 28: S. 27–78. Zernik, Uri (1991a): “Introduction”. In: Lexical Acquistion: Exploiting Online Resources to Build a Lexicon. herausgegeben von Zernik, Uri. Hillsdale: Lawrence Erlbaum. S. 1–26. Zernik, Uri (1991b): Lexical Acquistion: Exploiting On-line Resources to Build a Lexicon. Hillsdale: Lawrence Erlbaum. Zesch, Torsten; Gurevych, Iryna und Mühlhäuser, Max (2007): “Analyzing and Accessing Wikipedia as a Lexical Semantic Resource”. In: Datenstrukturen für linguistische Ressourcen und ihre Anwendungen. Proc. der GLDV Frühjahrstagung. herausgegeben von Rehm, Georg; Witt, Andreas und Lemnitzer, Lothar. Tübingen: Gunter Narr. S. 197–205.

Smile Life

When life gives you a hundred reasons to cry, show life that you have a thousand reasons to smile

Get in touch

© Copyright 2015 - 2024 PDFFOX.COM - All rights reserved.