Lemma (Lexikographie)
Das Lemma (Lateinisch: „Titel, Überschrift, Sinngedicht“ von altgriechisch λῆμμα lēmma, eigentlich „das Genommene“, „das Angenommene“; Plural Lemmata[1]) ist in der Lexikographie und Linguistik die Grundform eines Wortes, also diejenige Wortform, unter der man einen Begriff in einem Nachschlagewerk findet (Nennform, Zitierform).
Lemma, Lexem und Zitierform
[Bearbeiten | Quelltext bearbeiten]Das Lemma ist der Eintrag oder das Stichwort in einem Wörterbuch (Lexikon, Enzyklopädie).[2] Man bezeichnet es sowohl als Grundform eines Wortes als auch als Zitier- oder Grundform eines Lexems.[3][4] Der Vorgang zur Bestimmung der genaueren Lemmata wird als Lemmaselektion oder auch Lemmatisierung bezeichnet.
Ein Lexem, eine sprachliche Bedeutungseinheit, könnte im Prinzip auf beliebige Weise benannt werden, da es aus verschiedenen Formen abstrahiert ist, aber selbst keine bestimmte Form besitzt, die es gegenüber anderen Formen auszeichnet. Doch üblicherweise werden Lexeme nach einer konventionell bestimmten Form benannt, die dann als Zitierform (auch: Grundform, Stichwort) dieses Lexems bezeichnet werden:
- Im Deutschen ist die Zitierform für Nomen normalerweise der Nominativ Singular (z. B. Traum), für Verben der Infinitiv Präsens Aktiv (z. B. träumen).
- Im Lateinischen ist die Zitierform für Verben das Paradigma (Beispiel), das eine Folge bestimmter Modi (Infinitiv, Indikativ, Konjunktiv) und Tempora (Präsens, Perfekt …) angibt, die vor allem bei unregelmäßigen Verben sehr hilfreich ist. Diese Reihenfolge lautet in den meisten Wörterbüchern: 1. Person Singular Indikativ Präsens Aktiv, 1. Person Singular Indikativ Perfekt Aktiv, aktives Supinum I bzw. Partizip Perfekt Passiv (PPP) Neutrum und schließlich Infinitiv Präsens Aktiv. Zum Beispiel lautet das Paradigma für „bringen, (er)tragen“: fero, tuli, latum, ferre. In Lehrwerken steht dagegen der Infinitiv Präsens Aktiv an erster Stelle.
- In semitischen Sprachen ist die Zitierform insbesondere von Verben in der Regel die Wurzel, so wie sie meist in der ersten Konjugation in der 3. Person Maskulinum Singular des Perfekts sichtbar wird. Diese Form der ersten Konjugation ist die einzige, die ohne Vor- oder Nachsilben auskommt, während zum Beispiel das Arabische keinen Infinitiv kennt und im Hebräischen der Infinitiv als Zitierform des Verbs ungeeignet ist, da er in formaler Hinsicht keine Grundform, sondern eine konjugierte Form, nämlich eine Ableitung des Imperfekts, ist.
Am Wort orientierte linguistische Nachschlagewerke (Lexika, Thesauri, etymologische Werke) verwenden als Lemma alle Lexeme, während Nachschlagewerke, die mehr an begrifflicher Lemmaselektierung interessiert sind (Fachlexika, Fachglossare, Enzyklopädien und ähnliches) als Zitierform – insbesondere im Deutschen – das einfachste Substantiv bevorzugen: So fasst man etwa „der Traum“, „träumen“, „das Träumen“ und „das Geträumte“ unter einem gemeinsamen Lemma Traum zusammen, soweit es um denselben Sachverhalt geht. Hier wird meist vom Lemma als einem Deskriptor gesprochen.
Dass die Wahl der Zitierform vom Typ des Nachschlagewerks abhängig ist, zeigt folgendes Beispiel:
- Das Wort „Mäuse“ wird unter dem Lemma Maus eingeordnet.
- Diese Vorgehensweise wählt ein normales Wörterbuch, da „Maus“ die Grundform von „Mäuse“ ist.
- In der Biologie wird das Wort „Maus“ unter dem Lemma Mäuse eingeordnet.
- In einem biologischen Fachbuch dient die Gattung der Mäuse als Überbegriff. Die taxonomische Zitierform Mäuse drückt aus, dass es viele verschiedene Arten von Mäusen gibt und nicht einfach nur „die Maus“. Die Sichtweise der Biologie unterscheidet sich von der Umgangssprache, die alles, was wie eine Maus aussieht, als „Maus“ bezeichnet.
- Für Computermäuse ist in einem Fachbuch Maus das Lemma; in einem Universalwörterbuch kann der Eintrag zum Beispiel Maus (Computer) lauten.
- Computermäuse können zwar verschieden aussehen und sich in Einzelheiten unterscheiden, die Gemeinsamkeiten werden aber bei der Einordnung im Wörterbuch als wichtiger empfunden als die Unterschiede. Deshalb wird das Lemma – anders als in der Biologie – im Singular geführt.
Lemmatisierung
[Bearbeiten | Quelltext bearbeiten]Die lexikographische Reduktion der Flexionsformen eines Wortes auf eine Grundform, also die Festlegung der Grundform eines Lexems und die Anordnung der Lemmata wird auch Lemmatisierung genannt. Eine Teilmenge unmittelbar aufeinander folgender Lemmata bildet eine Lemmastrecke.
Unter Lemmatisierung wird außerdem die Bestimmung (oder auch Rückführung) einer Vollform zum entsprechenden Lemma verstanden. Dieser Vorgang ist je nach Anwendung in der Sprachtechnologie von Bedeutung. Beim Einsatz von statistischen Modellen etwa eignet sich die Lemmatisierung eines sehr kleinen Textkorpus manchmal dazu, die Frequenz einzelner Lexeme zu erhöhen und dadurch das statistische Rauschen zu verringern. Die Vollformen des Korpus werden dabei vor der statistischen Auswertung durch ihr Lemma ersetzt. Gab es vorher beispielsweise die Wortformen „traf“, „treffe“, „trifft“ und „treffen“ jeweils einmal im Korpus, so gibt es nach der Lemmatisierung nur noch das Lemma „treffen“ – allerdings mit einer Frequenz von vier. Das Lexem „treffen“ hat damit ein potenziell viel höheres Gewicht im Korpus, als es die einzelnen Vollformen vor der Lemmatisierung hatten.
Lemmaselektion
[Bearbeiten | Quelltext bearbeiten]Vor der Lemmatisierung wird eine Lemmaselektion durchgeführt, bei der entschieden wird, welche Arten von Lemmata in das Lexikon aufgenommen werden. Die Lemmaselektion ist notwendig, da eine vollständige Lemmatisierung aller Wörter, Wortteile und Wortgruppen einer Sprache mühsam ist. Ein Kriterium für die Aufnahme eines Lemmas in ein Lexikon ist die Zeitspanne, in der der Begriff in der jeweiligen Sprache existiert.
Eng verbunden ist die Lemmaselektierung mit der Verschlagwortung der herangezogenen Texte – die sich bei gesamtsprachlichen Werken erübrigt, weil der vollständige Sprachschatz erschlossen werden soll, bei fach- und anderen gruppensprachlichen Lexika aber durchaus relevant ist – und mit der Frage nach Synonymie, Homonymie und den Polysemen.
Siehe auch
[Bearbeiten | Quelltext bearbeiten]Literatur
[Bearbeiten | Quelltext bearbeiten]- Patrick Brandt, Rolf-Albert Dietrich, Georg Schön: Sprachwissenschaft. Ein roter Faden für das Studium der deutschen Sprache (= Uni-Taschenbücher. 8331). 2., überarbeitete und aktualisierte Auflage. Böhlau, Köln/Weimar/Wien 2006, ISBN 978-3-8252-8331-5 (UTB) / ISBN 978-3-412-00606-8 (Böhlau).
- Winfried Ulrich: Wörterbuch linguistische Grundbegriffe (= Hirts Stichwortbücher.). 5., völlig neu bearbeitete Auflage. Borntraeger, Berlin/Stuttgart 2002, ISBN 3-443-03111-0.
- Hadumod Bußmann (Hrsg.), Hartmut Lauffer: Lexikon der Sprachwissenschaft. Mit 14 Tabellen. 4., durchgesehene und bibliographisch ergänzte Auflage. Kröner, Stuttgart 2008, ISBN 978-3-520-45204-7.
Weblinks
[Bearbeiten | Quelltext bearbeiten]- Stichwortauswahl, Erläuterungen zum elexiko-Projekt des Instituts für Deutsche Sprache.
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Lemma. In: duden.de. Abgerufen am 7. April 2023.
- ↑ Patrick Brandt, Rolf-Albert Dietrich, Georg Schön: Sprachwissenschaft. 2006, S. 151.
- ↑ Lemma, Lemmatisierung. In: Helmut Glück (Hrsg.), unter Mitarbeit von Friederike Schmöe: Metzler Lexikon Sprache. 3., neu bearbeitete Auflage. Metzler, Stuttgart/Weimar 2005, ISBN 3-476-02056-8.
- ↑ Lemma. In: Winfried Ulrich: Wörterbuch Linguistische Grundbegriffe. 2002.