Schriftsysteme in Unicode

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Als Schriftsystem (englisch script) wird in Unicode eine Gruppe von Zeichen genannt, die gemeinsam als Schrift verwendet werden. In den meisten Fällen stimmen die Schriftsysteme grob mit den Unicodeblöcken überein, es gibt allerdings Schriftsysteme, die auf mehrere Blöcke verteilt sind und Blöcke, die Zeichen verschiedener Schriftsysteme umfassen. Schriftsysteme sind unabhängig von Sprachen. Zwar gibt es Fälle, in denen sich Schriftsystem und Sprache entsprechen, aber viele Schriftsysteme werden zum Schreiben mehrere verschiedener Sprachen verwendet. So wird das lateinische Alphabet im Deutschen, Englischen, Französischen, Vietnamesischem und vielen weiteren Sprachen als Schrift verwendet. Umgekehrt kann eine Sprache mehrere Schriften nutzen. So wurde das Türkische früher in arabischer Schrift geschrieben, während heute das lateinische Alphabet benutzt wird. Ob zwei Schriften einem gemeinsamen Schriftsystem angehören oder nicht, lässt sich nicht immer eindeutig festlegen. So betrachtet Unicode die japanischen Kanji als eine einfache Variante der chinesischen Schriftzeichen und fasst sie im Zuge der Han-Vereinheitlichung mit diesen zusammen. Das koptische Alphabet wurde ursprünglich als Erweiterung des griechischen angesehen und erst später als eigenständiges Schriftsystem in Unicode kodiert. In Unicode 7.0 sind insgesamt 123 verschiedene Schriftsysteme kodiert.

Formale Definition[Bearbeiten]

Formal festgelegt wird das Schriftsystem, dem ein Zeichen angehört, durch zwei Eigenschaften. In den meisten Fällen liefert die Script-Eigenschaft die nötige Information, sie nennt den englischen Namen des Schriftsystems. Insgesamt gibt es 127 verschiedene Werte. Drei dieser Werte haben eine spezielle Bedeutung:

  • Unknown kennzeichnet Zeichen, deren Schriftsystem sich nicht ermitteln lässt. Dies betrifft neben noch nicht belegten Codepunkten auch Zeichen aus dem Bereich zur privaten Verwendung.
  • Inherited (563 Zeichen) kennzeichnet hauptsächlich kombinierende Zeichen. Diese werden nach Aussehen, nicht nach Verwendung kodiert. So wird der Akut sowohl mit lateinischen als auch mit griechischen Buchstaben verwendet. Bei der Bestimmung des Schriftsystems nehmen solche Zeichen den Wert des vorangehenden Zeichens an.
  • Common (7129 Zeichen) schließlich bezeichnet Zeichen, die in mehreren Schriftsystemen verwendet werden können. Während manche dieser Zeichen nur in einigen wenigen verwandten Schriftsystemen verwendet werden, können Zeichen für die Interpunktion und Symbole mit allen Schriftsystemen genutzt werden.

Außerdem gibt es je einen Wert für jedes der 123 Schriftsysteme und einen weiteren für Brailzeichen. Diese gelten zwar als Symbole, besitzen jedoch einen eigenen Wert für die Script-Eigenschaft.

Eine genauere Angabe zum Schriftsystem macht in manchen Fällen die Script_Extensions-Eigenschaft. Bei Zeichen mit dem Wert Inherited oder Common, die nur in wenigen Schriftsystemen verwendet werden, zählt sie diese Schriftsysteme auf.

Verwendung[Bearbeiten]

Die Script-Eigenschaft kann auf verschiedene Weisen verwendet werden. Sie kann genutzt werden, um die Schrift zu erkennen, mit der ein Text geschrieben ist, oder Wörter aus einer bestimmten Schrift in einem Dokument zu finden. Zu diesem Zweck erlauben einige Implementierungen regulärer Ausdrücke die Verwendung von Unicode-Eigenschaften.

Eine andere Anwendung besteht in der Abwehr von Spoofing-Angriffen. So kann ein Browser anhand dieser Eigenschaft erkennen, dass in www.unicоde.org das о kein lateinischer, sondern ein kyrillischer Buchstabe ist, und den Benutzer vor einem URL-Spoofing-Versuch warnen.

Liste[Bearbeiten]

Die folgende Liste nennt alle Schriftsysteme, die in Unicode 7.0 mit mindestens 100 Zeichen vertreten sind.

Schrift
gibt die deutsche Bezeichnung der Schrift an
Script
nennt die Bezeichnung, unter der das Schriftsystem in Unicode bekannt ist
Typ
klassifiziert die Schriftsysteme nach der Art des Aufbaus. Unicode unterscheidet folgende Typen: Alphabet, Abdschad, Silbenschrift, Abugida, Logografie
Anzahl
gibt die Anzahl der Zeichen an, die diesem Schriftsystem zugeordnet werden, inklusive der Zeichen, die gemäß der Script_Extensions-Eigenschaft in diesem Schriftsystem verwendet werden. In diesem Fall ist zusätzlich die Aufteilung in Klammern angegeben.
Unicode
verweist auf weitere Informationen, die diese Schrift in Zusammenhang mit Unicode betreffen.
Schrift Script Typ Anzahl Unicode
Lateinisches Alphabet Latin Alphabet 1356 (1338 + 18) Lateinische Zeichen in Unicode
Griechisches Alphabet Greek Alphabet 520 (516 + 4) Griechisch und Koptisch in Unicode
Koptische Schrift Coptic Alphabet 165 (137 + 28)
Kyrillisches Alphabet Cyrillic Alphabet 433 (431 + 2) Kyrillisch und Glagolitisch in Unicode
Hebräisches Alphabet Hebrew Abdschad 133 Kodierung hebräischer Zeichen in Unicode
Arabische Schrift Arabic Abdschad 1300 (1244 + 56) Arabisch und Syrisch in Unicode
Devanagari Devanagari Abugida 206 (152 + 54) Indische Schriften in Unicode
Bengalische Schrift Bengali Abugida 105 (93 + 12)
Gujarati-Schrift Gujarati Abugida 106 (84 + 22)
Malayalam-Schrift Malayalam Abugida 101 (99 + 2)
Singhalesische Schrift Sinhala Abugida 112 (110 + 2)
Tibetische Schrift Tibetan Abugida 207
Birmanische Schrift Myanmar Abugida 234 (223 + 11)
Khmer-Schrift Khmer Abugida 146
Balinesische Schrift Balinese Abugida 121
Lanna-Schrift Tai_Tham Abugida 127
Brahmi-Schrift Brahmi Abugida 109
Georgisches Alphabet Georgian Alphabet 128 (127 + 1)
Koreanisches Alphabet Hangul Silbenschrift 11971 (11739 + 232) Ostasiatische Schriften in Unicode
Hiragana Hiragana Silbenschrift 356 (91 + 265)
Katakana Katakana Silbenschrift 565 (300 + 265)
Zhuyin Bopomofo Silbenschrift 306 (70 + 236)
Chinesische Schrift Han Logografie 76218 (75963 + 255)
Yi-Schrift Yi Silbenschrift 1246 (1220 + 26)
Äthiopische Schrift Ethiopic Silbenschrift 495
Cree-Schrift Canadian_Aboriginal Silbenschrift 710
Mongolische Schrift Mongolian Alphabet 156 (153 + 3)
Linearschrift B Linear_B Silbenschrift 268 (211 + 57) Historische Schriften in Unicode
Linearschrift A Linear_A Silbenschrift 341
Kyprische Schrift Cypriot Silbenschrift 112 (55 + 57)
Keilschrift Cuneiform Logografie 1037
Ägyptische Hieroglyphen Egyptian_Hieroglyphs Logografie 1071
Brailleschrift Braille 256 Symbole in Unicode
Vai-Schrift Vai Silbenschrift 300
Bamun-Schrift Bamum Silbenschrift 657
Pollard-Schrift Miao Silbenschrift 133
Duployé-Schrift Doployan 147 (143 + 4)
Pahawh Hmong Pahawh_Hmong 127
Mende-Schrift Mende_Kikakui 213

Quellen[Bearbeiten]

  • Mark Davis, Ken Whistler: Unicode Standard Annex #24: Unicode Script Property. (Online)
  • Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 6.1: Writing Systems. (online, PDF)
  • Scripts.txt, ScriptExtensions.txt (Unicode 7.0)

Weblinks[Bearbeiten]

  • Supported Scripts – alle Schriftsysteme in Unicode mit dem Zeitpunkt ihrer Aufnahme (englisch)
  • Code Charts – alle Unicodeblöcke, gruppiert nach Schriftsystemen (englisch)