1991 Unicode 1.0
16 Bit, europäischen, nahöstlichen und indischen Schriften
1996 Unicode 2.0
24 Bit theorethisch, genutzt bisher 21 Bit => 1114112 Zeichen bis heute
8-bit UCS (Unicode Character Set) Transformation Format
Abbildung der 24 Bit UCS auf 8 Bit:
IETF forciert die Verwendung
- Resultate haben variable Byte Länge von 1-4 Bytes pro Buchstabe/Zeichen
- US-ASCII (also alle Werte 0-127) werden 1:1 übernommen
- Alles andere ist eine Multibyte Sequenz bei der mindestens das 8. Bit gesetzt ist (>127)
Lässt theoretisch 2^42 = 4.398.046.511.104 Zeichen zu.