Unicode ist ein universeller Zeichensatz. Er deckt – angefangen bei deutschen Umlauten, speziellen Interpunktionszeichen oder Ligaturen über japanische Schriftzeichen bis hin zu indianischen Zeichen oder Runen – ganz unterschiedliche Schriftzeichen ab und ist identisch mit dem Zeichensatz ISO/IEC 10646. Im Unicode-Zeichensatz lassen sich theoretisch 1 114 111 Schriftzeichen codieren, das ist mehr als ausreichend für alle Sprachen der Welt.
In meinem Buch XML/XSL für Buch und Web habe ich in die Zeichensatzproblematik eingeführt und die Arbeit mit Unicode erläutert. Wenn Sie sich für diese Thematik interessieren (etwa für bestimmte Lokalisierungsprojekte), können Sie sich hier das betreffende Kapitel herunterladen:
Download von Kapitel 7, Unicode und die richtigen Sprachparameter
(im PDF-Format; 0,5 MByte)