Kali (Textkorpus)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Kali ist ein Akronym gebildet aus den Worten Korpusarbeit Linguistik und bezeichnet ein diachrones (siehe Diachronie) Textkorpus für das Deutsche als Grundlage für Studien zur Grammatikalisierung.

Seit Ende 2003 wird das Kali-Korpus am Deutschen Seminar der Leibniz Universität Hannover unter der Leitung von Gabriele Diewald aufgebaut.

Umfang[Bearbeiten | Quelltext bearbeiten]

Das Korpus umfasst gegenwärtig acht Jahrhunderte. Die Textauswahl und Aufbereitung sowie die linguistische Annotation und Glossierung (siehe Glosse, Glossierung in der Sprachwissenschaft) liegen bereits in substantiellen Teilen vor. Zur Zeit besteht das Korpus aus 25 Quellen (Stand: 10/2008) aus der althochdeutschen (siehe Althochdeutsch) und der mittelhochdeutschen (siehe Mittelhochdeutsch) Sprachstufe, von denen die Mehrzahl öffentlich und unentgeltlich zugänglich ist.

Zielsetzung und Verfahrensweise[Bearbeiten | Quelltext bearbeiten]

Sämtliche Verben in den vorliegenden Texten des Korpus werden mit morphologischen (siehe Morphologie (Sprache)) Informationen annotiert und lemmatisiert (siehe Lemmatisierung). Bei der Lemmatisierung werden sowohl die synchronen (siehe Synchronie) Formen der jeweiligen Sprachstufe als auch die neuhochdeutschen (siehe Neuhochdeutsch) Entsprechungen erfasst. Die Grundlage für die Lemmatisierung bilden einschlägige Wörterbücher: Für das Althochdeutsche Schützeichel und für das Mittelhochdeutsche Lexer (siehe Literatur).

Integration in aktuelle Forschungsprojekte[Bearbeiten | Quelltext bearbeiten]

Das Korpus wurde zunächst als Materialgrundlage für diachrone empirische (siehe Empirie) Untersuchungen im Rahmen des Forschungsprojektes „Evidentialitätsmarker im Deutschen“ genutzt, wird aber auch als Datengrundlage in anderen Forschungsprojekten verwendet, so z. B. im Europäischen Kooperationsprojekt „Grammaticalization and (inter)subjectification“.

Die Erforschung der Verbalkategorien des Deutschen, vor allem der Kategorien Evidentialität und Modalität, über mehrere Sprachperioden hinweg steht im Mittelpunkt der aktuellen Forschungsprojekte. Dementsprechend werden Verben im Korpus bevorzugt behandelt. Gegenwärtig werden sämtliche Verbformen im Korpus morphologisch annotiert und lemmatisiert. Eine Ausweitung der Annotation und Lemmatisierung auf andere Wortarten ist geplant.

Technische Grundlagen[Bearbeiten | Quelltext bearbeiten]

Die technische Grundlage für Kali bildet ein klassisches LAMP-System. Das hierbei verwendete CMS (siehe Content-Management-System) wurde für die Bedürfnisse der Kali-Benutzer von Grund auf neu entwickelt und bietet für die Korpusbearbeitung webbasierte, intuitiv zu nutzende Werkzeuge für die Lemmatisierung und Annotation. Die Aufbereitung der Daten stellt für die linguistische Forschung sowohl in der Textausgabe als auch mittels ausgereifter Suchfunktionen und einer Hyperlemmatisierung leistungsfähige Möglichkeiten bereit.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Lexer, Matthias. 1872-1878. Mittelhochdeutsches Handwörterbuch [zugleich als Supplement und alphabetischer Index zum Mittelhochdeutschen Wörterbuch von Benecke-Müller-Zarncke]. Leipzig: Hirzel.[1]
  • Lexer, Matthias. 1992. Mittelhochdeutsches Taschenwörterbuch. In der Ausgabe letzter Hand. 2. Nachdr. der 3. Aufl. von 1885. Stuttgart: Hirzel.
  • Schützeichel, Rudolf. 2006. Althochdeutsches Wörterbuch. 6. überarb. und um die Glossen erw. Aufl. Tübingen: Niemeyer.

Quellen[Bearbeiten | Quelltext bearbeiten]