Universal Character Set

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Universal Character Set (UCS) ist eine Zeichenkodierung, die in der internationalen Norm ISO/IEC 10646 definiert ist. Diese deckt sich vollständig mit den korrespondierenden Unicode-Kodierungen UTF-16 und UTF-32.[1]

Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.

Seit der Revision 2011 (ISO/IEC 10646:2011) sind die Kodierungen in jeder Hinsicht identisch mit denen des jeweiligen UNICODE-Standards.

Die Gruppe arbeitet sehr eng mit dem Unicode-Konsortium zusammen, das die Standards ständig in neuen Versionen synchronisiert. Aufgrund dessen sind alle Kodierungen aus Interoperabilitätsgründen auf die bei Unicode erlaubten 1.112.064 (= 220+216, abzüglich 211 Surrogate von UTF-16) Zeichen (von U+00000 bis U+0D7FF, sowie U+0E000 bis U+10FFFF) beschränkt.

Ursprünglich wurden diese beiden Formate definiert:

  • UCS-2: obsolete Kodierung in 2 Byte; dabei lässt sich nur die Basic Multilingual Plane kodieren. Dies ermöglicht die Codierung der meisten lebenden Sprachen und der gebräuchlicheren Sonderzeichen. UCS-2 ist nicht mehr Bestandteil des Standards. UCS-2 war auch der Zeichensatz von Microsoft Windows NT, während seit Windows 2000 UTF-16 eingesetzt wird.
  • UCS-4: Kodierung in 4 Byte (entspricht UTF-32)

In der Version ISO/IEC 10646-3:2003 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben wie in Unicode 4.0. Seit Revision 2011 sind die Standards hinsichtlich der Kodierungen deckungsgleich.

Gegenüberstellung der Versionen[Bearbeiten]

  • ISO/IEC 10646-1:1993 ≈ Unicode 1.1
  • ISO/IEC 10646-1:2000 ≈ Unicode 3.0
  • ISO/IEC 10646-2:2001 ≈ Unicode 3.2
  • ISO/IEC 10646-3:2003 ≈ Unicode 4.0
  • ISO/IEC 10646-4:2008 ≈ Unicode 5.1
  • ISO/IEC 10646:2012 ≈ Unicode 6.1
  • ISO/IEC 10646:2014 ≈ Unicode 8.0

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. UNICODE Standard 8.0.0 - Appendix C - Relationship to ISO/IEC 10646 (en) Abgerufen am 25. August 2015.