GB2312

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

GB2312 ist ein Zeichensatz (engl. Coded Character Set) für vereinfachte chinesische Schriftzeichen, der 1980 eingeführt wurde. Er umfasst insgesamt 7.445 Zeichen, davon 6.763 chinesische Schriftzeichen.

Alle Zeichen sind in einer 94×94-Matrix angeordnet[1], somit sind maximal 8.836 Zeichen möglich. Dieses System wird auch von JIS X 0208 und KS X 1001 verwendet.

Der erste Bereich (Zeile 1 bis 9) kodiert Satzzeichen sowie die griechische Schrift, die kyrillische Schrift, japanische Kana, Zhuyin sowie Buchstaben für Pinyin. Die beiden anderen Bereiche enthalten chinesische Schriftzeichen: In Zeile 16 bis 55 sind chinesische Schriftzeichen nach der Pinyin-Transliteration sortiert, die Zeilen 56 bis 87 enthalten chinesische Schriftzeichen nach der Sortierung im Kangxi-Wörterbuch.

Kodierung[Bearbeiten]

Vom Zeichensatz selbst ist die Kodierung (engl. Character Encoding Scheme) zu unterscheiden.[2]
GB2312 wird normalerweise in Form von EUC-CN verwendet. Dabei sind die beiden Zeichensätze US-ASCII (als 1-Byte-Zeichen) und GB2312 (als 2-Byte-Zeichen) kombiniert. Zur Unterscheidung von den ASCII-Zeichen wird zu den Zeilen- und Spalten-Nummern der GB2312-Zeichen jeweils 160 (0xA0) addiert, so dass Bytes im Bereich 0xA1 bis 0xFF entstehen. Das 1. Byte entspricht dabei der Zeilennummer, das 2. Byte der Spaltennummer.
Im Mailverkehr war auch die 7-Bit-Kodierung HZ üblich.

Weiterentwicklung[Bearbeiten]

1995 wurde GB2312 durch die Spezifikation GBK erweitert, die jedoch nie offizielle Norm wurde und somit keine GB-Nummer bekam.[3] Durch die Verwendung unter Windows fand sie jedoch große Verbreitung.
2000 wurde GB2312 offiziell von GB18030 abgelöst, wird jedoch weiterhin häufig verwendet.

Verwendung unter Windows[Bearbeiten]

Unter Windows ist GB2312 in der EUC-CN-Kodierung als Codepage 20936 verfügbar, wenn die Erweiterungsoption "Dateien für ostasiatische Sprachen" installiert ist. An einigen Stellen wird unter Windows jedoch die Codepage 936 fälschlicherweise als GB2312 bezeichnet. In Wirklichkeit ist Codepage 936 eine Implementierung von GBK. Im Dialog "Dateikonvertierung" von Word 2003 wird Codepage 936 als "Chinesisch vereinfacht (GB2312)" und Codepage 20936 als "Chinesisch vereinfacht (GB2312-80)" zur Auswahl angeboten.

Referenzen[Bearbeiten]

  1. Ken Lunde: CJKV Information Processing. O'Reilly, 1999, ISBN 1-56592-224-7 (1. Aufl.) bzw. ISBN 0-596-51447-6 (2. Aufl. 2009), App. E (PDF; 3,6 MB)
  2. RFC 2978
  3. Liste der GB-Normen in der engl. Wikipedia

Weblinks[Bearbeiten]

  • Zeichentabelle GB2312 bei O'Reilly (PDF; 3,6 MB) oder bei C. Wittern, Kyoto (PDF; 3,6 MB) (Anmerkung: Zeile 10 und 11 dieser Darstellung enthalten die halbbreiten Varianten der ASCII-Zeichen (aus Zeile 3) und der für Pinyin verwendeten lateinischen Sonderzeichen (aus Zeile 8). Diese Inhalte sind nachträgliche Ergänzungen.)
  • Zeichentabelle in der Form von EUC-CN (engl.) bei Ngai Kim Hoong