Tokenisierung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval.

In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression.

Probleme der Tokenisierung[Bearbeiten]

Üblicherweise wird ein Text bei der Tokenisierung in seine Wörter zerlegt. Die White-Space-Tokenisierung ist die einfachste Form einer solchen Zerlegung. Der Text wird bei diesem Verfahren an den Leer- und Interpunktionszeichen aufgetrennt. Bei nicht-segmentisierenden Schriften wie der chinesischen oder japanischen kann es nicht angewandt werden, da in diesen keine Leerzeichen vorhanden sind.

Bei einem alternativen Tokenisierungsverfahren bilden Folgen von Buchstaben ein Token, ebenso alle Folgen von Ziffern. Alle anderen Zeichen bilden für sich genommen ein Token.

Beide Verfahren sind jedoch problematisch im Fall von Mehrwortlexemen, speziell Eigennamen, Währungsangaben usw. Für den Satz Klaus-Rüdiger kauft in New York für $2.50 Fish'n'Chips. wäre aus linguistischer Sicht eine Segmentierung in folgende Tokenfolge adäquater:

 Klaus-Rüdiger
 kauft
 in
 New York
 für
 $2.50
 Fish'n'Chips

Literatur[Bearbeiten]