Universal Character Set

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Universal Character Set (UCS) ist eine Zeichenkodierung, die in der internationalen Norm ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.

Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.

Ursprünglich wurden diese beiden Formate definiert:

  • UCS-2: Kodierung in 2 Byte; dabei lässt sich nur die Basic Multilingual Plane kodieren. Dies ermöglicht die Codierung der meisten lebenden Sprachen und der gebräuchlicheren Sonderzeichen. UCS-2 ist auch der Zeichensatz von Microsoft Windows NT.
  • UCS-4: Kodierung in 4 Byte (entspricht UTF-32)

Die Gruppe arbeitet sehr eng mit dem Unicode-Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. Aufgrund dessen sind alle Kodierungen aus Interoperabilitätsgründen auf die bei Unicode erlaubten 1.112.064 (= 220+216, abzüglich 211 Surrogate von UTF-16) Zeichen (von U+00000 bis U+0D7FF, sowie U+0E000 bis U+10FFFF) beschränkt.

In der Version ISO/IEC 10646-3:2003 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben wie in Unicode 4.0.

Gegenüberstellung der Versionen[Bearbeiten]

  • ISO/IEC 10646-1:1993 ≈ Unicode 1.1
  • ISO/IEC 10646-1:2000 ≈ Unicode 3.0
  • ISO/IEC 10646-2:2001 ≈ Unicode 3.2
  • ISO/IEC 10646-3:2003 ≈ Unicode 4.0
  • ISO/IEC 10646-4:2008 ≈ Unicode 5.1
  • ISO/IEC 10646:2012 ≈ Unicode 6.1

Weblinks[Bearbeiten]