PHPUGS • PHP i18n • UTF-8

Erster Versuch der Vereinheitlichung von Zeichensätzen in ISO 2022 per Escape Sequenzen (Umschalten auf proprietäre Lösung), umgesetzt nur JP, KR, CN
1991 Unicode 1.0
16 Bit, europäischen, nahöstlichen und indischen Schriften
1996 Unicode 2.0
24 Bit theorethisch, genutzt bisher 21 Bit => 1114112 Zeichen bis heute

8-bit UCS (Unicode Character Set) Transformation Format

Abbildung der 24 Bit UCS auf 8 Bit:
IETF forciert die Verwendung

Resultate haben variable Byte Länge von 1-4 Bytes pro Buchstabe/Zeichen
US-ASCII (also alle Werte 0-127) werden 1:1 übernommen
Alles andere ist eine Multibyte Sequenz bei der mindestens das 8. Bit gesetzt ist (>127)

Genauer: RFC 3629
Lässt theoretisch 2^42 = 4.398.046.511.104 Zeichen zu.