HaGenLex

Intelligente Informations- und Kommunikationssysteme

HaGenLex

Autor: Rainer Osswald (rainer.osswald@fernuni-hagen.de)

Einführung

HaGenLex (HAgen GErmaN LEXicon) ist ein domänenunabhängiges Computerlexikon für das Deutsche, das seit 1996 am Lehrgebiet für Intelligente Informations- und Kommunikationssysteme (IICS) der FernUniversität in Hagen entwickelt wurde. HaGenLex-Einträge sind mit detaillierter morphosyntaktischer und semantischer Information versehen. Das Kernlexikon von HaGenLex umfasst gegenwärtig (07/2005):

12986	Substantiv-Einträge
6911	Verb-Einträge
3278	Adjektiv-Einträge
579	Adverb-Einträge

Der lexikalische Bestand von HaGenLex wurde vorwiegend manuell auf der Grundlage von Frequenzlisten und Wörterbüchern erstellt. Eine ausführliche Darstellung von HaGenLex gibt [1].

Lexikalische Semantik

Die semantische Darstellung in HaGenLex basiert auf dem MultiNet Paradigma, dessen Darstellungsmittel eine Hierarchie von 45 ontologischen Sorten (object, action, location, property, etc) und mehr als 100 semantische Relationen und Funktionen umfassen. Außerdem werden die in Abbildung 1 aufgelisteten 16 binäre semantische Merkmale verwendet.

Abbildung 1: Binäre semantische Merkmale

Jedes lexikalische Konzept ist hinsichtlich seiner ontologischen Sorten und seiner semantischen Merkmale klassifiziert, welche zusammen die sogenannte semantische Sorte der Konzepts bestimmen. Die semantische Valenz von Einträgen bzw. Konzepten wird mit Hilfe bestimmter MultiNet-Relationen, den sogenannte kognitiven Rollen (AGT, BENF, etc.), beschrieben. Selektionsrestriktionen können ebenfalls mittels ontologischer Sorten und semantischer Merkmale vorgegeben werden. Die folgenden Angaben skizzieren die semantische Klasse und den Kasusrahmen des Verbs informieren:

action, MENTAL-

AGT	OBJ	MCONT
LEGPER+	LEGPER+
NP[nom]	NP[acc]	PP[über, acc]
obligatorisch	optional	optional

Das so beschriebene Verb denotiert eine nichtmentale Handlung mit drei Partizipanten, die entsprechend als Agens (AGT), neutrales Objekt (OBJ) und mentaler Inhalt (MCONT) charakterisiert sind, wobei nur der erste von diesen (im Aktivsatz) syntaktisch realisiert sein muss. Außerdem sind als Agens und neutrales Objekt nur potentielle Agenten (POTAG+) zugelassen. (Es sei darauf hingewiesen, dass das Merkmal MENTAL+ auf rein mentale Prozesse beschränkt ist, wie sie in Verben wie träumen oder denken zum Ausdruck kommen.)

Die Kategorisierung von Lexemen durch semantische Sorten und Kasusrahmen ist explizit in die im folgenden Abschnitt erläuterte Werkmal-Wert-Darstellung der HaGenLex-Einträge integriert. Zusätzlich steht ein Merkmal NET bereit, um weitere semantische Angaben in Form beliebiger MultiNet-Ausdrücke in Lexikoneinträge aufnehmen zu können. Beispielsweise bringt der MultiNet-Ausdruck

(GOAL c n1) (MEXP n1 x2) (MCONT n1 x3) (SUBS n1 "wissen.1.1")

als Teil des NET-Wertes des Lexems informieren zum Ausdruck, dass wenn x1 x2 über x3 informiert, dann x1 erreichen will, dass x2 x3 kennt. (Das Symbol c steht dabei für das Konzept des gegebenen Eintrags.) Mit Hilfe dieser Methode lassen sich formale Bedeutungspostulate in HaGenLex angeben [2].

Die Einträge von HaGenLex sind in systematischer Weise auf die lexikalischen Einheiten von GermaNet [3] bezogen. Diese Zuordnung, die von den HaGenLex-Lexikographen aufgebaut und gepflegt wird, erlaubt es, die sinnrelationalen Zusammenhänge von GermaNet auf HaGenLex zu projizieren, um beispielsweise die semantische Konsistenz von HaGenLex zu überprüfen oder den Interlingua-Index von EuroWordNet zu nutzen.

Interne Repräsentation

Der internen Repräsentation von HaGenLex-Einträgen liegt ein getypter Merkmal-Wert-Formalismus zugrunde, der die Darstellung von Listen und Disjunktionen sowie auch die Angabe von Mengen atomarer Typen unterstützt. Pfad-Identitäten werden von der Implementierung nicht unterstützt, was keine Einschränkung darstellt, da die Merkmalsstrukturen von HaGenLex nur zur Darstellung lexikalischer Information eingesetzt werden, und nicht für phrasale Regularitäten.

Die Typhierarchie von HaGenLex hat die Gestalt eines taxonomischen Baumes - insbesondere sind alle direkten Untertypen eines Typs paarweise inkompatibel. Neben den lexikalischen Standardtypen wie case stellt die Typhierarchie von HaGenLex auch die ontologischen Sorten und lexikalisch relevanten semantische Relationen von MultiNet bereit. Wie in getypten merkmalsbasierten Ansätzen üblich, ist ein Merkmal der HaGenLex-Merkmalsarchitektur nur in Strukturen bestimmten Typs zulässig, wobei die möglichen Werte des Merkmals ebenfalls von dem Typ der Struktur abhängen. Beispielsweise ist das Merkmal MORPH nur in Strukturen des Typs sign zulässig. Da word ein Untertyp von sign ist, und jeder Typ von seinem Obertyp alle dort zugelassenen Merkmale erbt, ist das Merkmal MORPH auch für den Typ word zulässig. Eine (nichtredundante) Liste der zulässigen Merkmale und ihrer entsprechenden Werte für einen gegebenen Typ wird auch als die dem Typ zugeordnete Merkmalsdeklaration bezeichnet. Es folgt eine Beispielliste von fünf (leicht vereinfachten) HaGenLex-Merkmalsdeklarationen:

	sign
	MORPH	morph
	SYN	syn
	SEMSEL	semsel

	word
	G-ID	string
	ORIGIN	string

	semsel
	SEM	sem
	C-ID	string
	DOMAIN	domain
	SELECT	list(select-element)
	COMPAT-R	set(rel)

	sem
	ENTITY	entity
	NET	net
	LAY	lay
	MOLEC	boolean

	select-element
	REL	set(rel)
	OBLIG	boolean
	SEL	sign

Da die Merkmalsstrukturdarstellung eines lexikalischen Eintrags den Typ word hat, und word Untertyp von sign ist, sind die Merkmale auf der obersten Ebene einer solchen Struktur durch die Merkmalsdeklarationen von word und sign bestimmt. Der Wert des Merkmals SEMSEL ist eine Struktur vom Typ semsel, dessen oberste Merkmalsebene durch die Deklaration von von semsel festgelegt ist; Merkmalsstrukturen dieses Typs repräsentieren die Semantik und die Valenz eines Lexems. Die Valenzinformation wiederum ist durch eine Liste von Strukturen des Typs select-element kodiert, wobei jedes der Listenelemente einem Komplement entspricht, das durch eine Menge von semantischen Relationen (REL), seine syntaktische Notwendigkeit (OBLIG) sowie seine Beschreibung durch eine Struktur vom Typ sign (SEL) bestimmt ist. Strukturen vom Typ sem schließlich kennzeichnen die Semantik lexikalischer Einträge durch ihre semantische Sorte (ENTITY), zusätzliche MultiNet-Ausdrücke (NET), Schichtenmerkmale (LAY) und Polysemietyp (MOLEC).

Da Merkmalsdeklarationen nur sehr eingeschränkte Möglichkeiten zur Beschreibung lexikalischer Regularitäten bereitstellen, verwendet HaGenLex zusätzlich den sogenannten IBL (Inheritance-Based Lexicon) Formalismus [4], der die Formulierung komplexerer Bedingungen sowie von Defaults durch den Einsatz von Klassen erlaubt. Unter einer Klasse wird dabei ein benanntes Bündel von Attribut-Wert-Bedingungen verstanden, das typischerweise eine unterspezifizierte Merkmalsstruktur beschreibt. Die Klasse verb beispielsweise ist folgendermaßen definiert, wobei Default-Angaben durch Fragezeichen gekennzeichnet sind:

verb [
 word
 syn [
 v-syn
 perf-aux ?haben
 sep-prefix ?""
 v-type ?main
 v-control ?nocontr]]

Eine Klasse kann Information von anderen Klassen direkt oder eingebettet über Merkmalspfade erben. Die Klasse verb ist nicht-lexikalisch in dem Sinne, dass sie in verschiedenen lexikalischen oder nicht-lexikalischen Klassen zum Einsatz kommt. Mit einer lexikalische Klasse ist die IBL-Darstellung eines Lexikoneintrags gemeint; als IBL-Klasse erbt sie die Information ihrer Oberklassen. Die IBL-Darstellung des HaGenLex-Eintrags für informieren hat die folgende Gestalt:

"informieren.1.1" [
 verb
 semsel [
 v-nonment-action
 sem net /(goal c n1) (mexp n1 x2) (mcont n1 x3) (subs n1 "wissen.1.1")/
 select <
 [
 agt-select
 sel semsel sem entity legper +]
 [
 ornt-select
 oblig -
 sel [
 syn np-acc-syn
 semsel sem entity legper +]]
 [
 mcont-select
 oblig -
 sel syn (ueber-acc-pp-syn zu-dat-pp-syn darueber-dass-syn darueber-wh-syn none-wh-syn)] >
 compat-r {dur tlim}
 example "(Der Minister) (informiert) (das Parlament) (über das Gesetz)."
 entail "x1 informiert x2 über x3: x2 hat nach c Kenntnis von x3"]
 g-id "1 2"
 origin "DS 1997-11-10"
 history "FB 2002-11-26: sem net, select, entail"]

Indem man alle Klassen eines Eintrags gemäß ihrer Definition auflöst, erhält man die expandierte Form des Eintrags (Beispiel: expandierter Eintrag zu informieren, dargestellt als Attribut-Wert-Matrix).

Die aktuelle Implementierung von HaGenLex basiert auf der Programmiersprache Scheme. Expandierte Einträge lassen sich zudem automatisch in verschiedene XML-Formate überführen [5].

Lexikonwerkbank

Die Erstellung und Pflege der HaGenLex-Einträge wird durch die Werkbank LIA (Lexicon in Action) unterstützt, die komfortable Möglichkeiten zum Browsen und Editieren bereitstellt. Der Werkbank LIA liegt eine Zwei-Komponenten-Architektur zugrunde (siehe Abbildung 2). Die mittels Tcl/Tk realisierte Front-End-Applikation kontrolliert die graphische Benutzerschnittstelle, verwaltet die Schnittstellen zu den eingebundenen Fremdwerkzeuge und transformiert die interne Repräsentation in ein benutzerfreundliches Format; die in Scheme implementierte Back-End-Applikation realisiert die durch Benutzeraktionen angestoßenen Inferenzen. Der Inferenzmechanismus von LIA basiert auf den Merkmalsdeklarationen und den Klassendefinition von HaGenLex. Außerdem werden LIA-spezifische lexikalische Regeln eingesetzt, um den Editierungsprozess durch Default-Inferenzen zu beschleunigen.

LIA
Abbildung 2: LIA Architektur

LIA erlaubt dem Benutzer die Erstellung und Modifikation lexikalischer Einträge ohne tiefere Kenntnis über deren interne Repräsentation. Zu diesem Zweck bietet LIA alle Auswahlmöglichkeiten, etwa für den semantischen Typ eines bestimmten Substantivs oder eines nominalen Komplements, mittels leicht verständlicher Paraphrasen dar. Zudem unterstützt LIA Entscheidungen des Lexikographen durch die Abfrage von Akzeptabilitätsurteilen; beispielsweise wird die Information darüber, ob die Komplemente eines Verbs obligatorisch oder optional sind, durch die Darbietung von Beispielsätzen abgefragt, in denen einzelne Komplemente fehlen. Was Browsing betrifft, so erlaubt LIA dem Benutzer, durch freie Selektion von Merkmal-Wert-Kombinationen in flexibler Weise Teilsichten auf das Lexikon zu erzeugen.

Abbildung 3: Darstellung des HaGenLex-Eintrags für das Verb informieren durch LIA

LIA stellt verschiedene Schnittstellen zu anderen Software-Komponenten des HaGenLex-MultiNet-Systems zur Verfügung. So können etwa lexikalisch-semantische Spezifikationen in Form von MultiNet-Ausdrücken mit Hilfe eines graphischen MultiNet-Editors bearbeitet werden, den die Werkbank für der Wissensingenieur MWR, bereitstellt (siehe Abbildung 4).

Abbildung 4: MultiNet-Semantik (relationaler Anteil) für den in Abbildung 3 gezeigten HaGenLex-Eintrag

Diese Schnittstelle kann auch dazu verwendet werden, die MultiNet-Analyse des Beispielsatzes eines Eintrags darzustellen, die ihrerseits mit Hilfe des syntaktisch-semantischen Parsers WOCADI erzeugt wird. Der Lexikograph kann so überprüfen, ob der vorliegende Eintrag bezüglich des Beispielkontextes korrekt semantisch beschrieben ist.

Ausgewählte Literatur

Sven Hartrumpf, Hermann Helbig, and Rainer Osswald: The Semantically Based Computer Lexicon HaGenLex - Structure and Technological Environment. In: Traitement automatique des langues, 44(2), 2003, pp. 81-105.
Ingo Glöckner, Sven Hartrumpf, and Rainer Osswald: From GermaNet Glosses to Formal Meaning Postulates. In: Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen, ed. Bernhard Fisseni, Hans-Christian Schmitz, Bernhard Schröder, and Petra Wagner. Peter Lang, Frankfurt am Main, 2005, pp. 394 - 407.
Rainer Osswald: Die Verwendung von GermaNet zur Pflege und Erweiterung des Computerlexikons HaGenLex. In: LDV Forum - Anwendungen des deutschen Wortnetzes in Theorie und Praxis, ed. Claudia Kunze, Lothar Lemnitzer, and Andreas Wagner. 19(1/2), 2004, pp. 43-51.
Sven Hartrumpf: Redundanzarme Lexika durch Vererbung. Master's thesis, Universität Koblenz-Landau, 1996.
Michaela Bürgle: Konzeption und Realisierung einer XML-basierten Darstellung für das Computerlexicon HaGenLex. Bachelor's thesis, Department of Computer Science, FernUniversität in Hagen, 2005.
Chris Biemann and Rainer Osswald: Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora. In: Sprachtechnologie, mobile Kommunikation und linguistische Ressourcen, ed. Bernhard Fisseni, Hans-Christian Schmitz, Bernhard Schröder, and Petra Wagner. Peter Lang, Frankfurt am Main, 2005, pp. 15 - 27.
Rainer Osswald and Hermann Helbig: Derivational Semantics in HaGenLex - An Interim Report. In: Semantik im Lexikon, ed. Stefan Langer and Daniel Schnorbusch. Narr, 2005, pp. 87-127.
Rainer Osswald: Eine Werkbank zur Erstellung und Pflege des semantikbasierten Computerlexikons HaGenLex. Proceedings of KONVENS 2004, Schriftenreihe der Österreichischen Gesellschaft für Artificial Intelligence, Band 5. pp. 149-152.
Hermann Helbig: Die semantische Struktur natürlicher Sprache. Springer, Heidelberg, 2001.
Marion Schulz: Eine Werkbank zur interaktiven Erstellung semantikbasierter Computerlexika. Doctoral Thesis, Department of Computer Science, FernUniversität in Hagen, 1999.

[Veröffentlichungen der IICS-Gruppe]