Definition Unicode Was ist Unicode?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

Unicode ist ein genormtes Character Encoding Scheme (ECS). Es handelt sich um einen Standard für die universelle Codierung von Textzeichen in Binärdarstellung und ist eine Art Kompendium für die verschiedenen weltweit existierenden Textzeichen. Das Unicode-Konsortium entwickelt den Standard kontinuierlich weiter. Die Textzeichen sind über einen eindeutigen Codepoint dargestellt. Unicode ist in 17 verschiedene Ebenen unterteilt und kann über eine Million Zeichen abbilden.

Unicode ist ein Standard für die universelle Codierung von allen weltweit bekannten Textzeichen in Binärdarstellung.(Bild:  gemeinfrei /  Pixabay)
Unicode ist ein Standard für die universelle Codierung von allen weltweit bekannten Textzeichen in Binärdarstellung.
(Bild: gemeinfrei / Pixabay)

Unicode ist die Kurzbezeichnung für "Universal Character Encoding". Die deutsche Übersetzung lautet "Universelle Zeichencodierung". Es handelt sich um ein genormtes Character Encoding Scheme für die weltweit bekannten Textzeichen. Mithilfe des Standards lassen sich Textzeichen eindeutig benennen und binär darstellen. Diese Darstellung wird von Computern zum Speichern und Verarbeiten textbasierter Daten verwendet.

Unicode ist eine Art Kompendium für die weltweit existierenden Textzeichen. Es enthält die Textzeichen verschiedener Alphabete wie des griechischen, arabischen oder hebräischen Alphabets sowie Sonderzeichen aus kaufmännischen, technischen und mathematischen Bereichen. Ziel der Entwicklung des Standards war es, sämtliche von Menschen entwickelten Zeichen und Schriftsysteme digital abzubilden.

Unicode umfasst inzwischen mehr als 200.000 Zeichen und hat eine Kapazität für weit über eine Million Zeichen. Universal Character Encoding ist in 17 verschiedene Ebenen unterteilt. Jedes Textzeichen ist über einen eindeutigen Codepoint darstellbar. Von der ISO ist der Standard als ISO/IEC 10646 und als Universal Coded Character Set (UCS) genormt. Das für die Weiterentwicklung verantwortliche Unicode-Konsortium ist eine nicht gewinnorientierte Organisation und hat seinen Sitz in Kalifornien. Zu den Mitgliedern zählen führende Technologieunternehmen. Betriebssysteme, Programmiersprachen, Browser, Auszeichnungssprachen wie Hypertext Markup Language (HTML), Protokolle, Bibliotheken, Datenbanken und viele weitere Software-Komponenten machen Gebrauch vom Universal Character Encoding. Die Version 1.0 des Standards erschien bereits im Jahr 1991. Es folgten zahlreiche weitere Versionen wie Unicode 14.0 aus dem Jahr 2021 und Unicode 15.0 aus dem Jahr 2022.

Aufbau des Universal Character Encodings

Unicode ist in 17 Ebenen (Planes) unterteilt. In jeder Ebene lassen sich 2 hoch 16 = 65.536 Zeichen darstellen. Eine Ebene besitzt damit 65.536 Codepoints. Sechs der 17 Ebenen werden aktuell verwendet. Die bisher noch nicht genutzten Ebenen sind für zukünftige Weiterentwicklungen vorgesehen. Die Ebene 0 wird als Basis Multilingual Plane (BMP) bezeichnet. Sie beinhaltet die bisher gebräuchlichsten Schriftsysteme und Zeichen. Die Ebene 1 wird auch als Supplementary Multilingual Plane (SMP), die Ebene 2 als Supplementary Ideographic Plane (SIP), die Ebene 14 als Supplementary Special-purpose Plane (SSP) und die Ebene 15 und Ebene 16 als Supplementary Private Use Area-A und -B (PUA) bezeichnet.

Codepoints und Beispiele

Eine Kernidee von Unicode ist es, die Zeichen unabhängig von ihrer visuellen Repräsentation abzubilden. Ein Buchstabe wie ein großes "Z" ist unabhängig von der Schriftart und der visuellen Darstellung immer über den gleichen Codepoint repräsentiert. Ein Codepoint ist eine hexadezimale Darstellung eines Zeichens. Er beginnt mit einem "U+" gefolgt vom hexadezimalen Code. Beispiele für Codepoints sind:

  • U+0041 für A
  • U+00C4 für Ä
  • U+00DF für ß
  • U+0023 für #
  • U+0039 für 9

Jeder Codepoint spezifiziert genau ein Zeichen. Der gesamte Unicode-Standard hat über die 17 Ebenen 1.114.112 Codepunkte. Einige dieser Codepunkte sind nicht für die Zeichenkodierung vorgesehen.

Die Transformationsformate des Universal Character Encodings

Um mit Unicode-Zeichensätzen auf digitalen Systemen zu arbeiten, müssen sie übersetzt (transformiert) werden. Zur Übersetzung existieren verschiedene Transformationsformate. Sie werden auch als UTF (Unicode Transformation Format) bezeichnet. Häufig verwendet wird das Transformationsformat UTF-8. Auch Formate wie UTF-16 oder UTF-32 sind üblich. Bei UTF-8 wird ein Zeichen durch ein Byte, bei UTF-16 durch zwei Byte und bei UTF-32 durch vier Byte dargestellt. Die UTF-8-Kodierung eines "A" mit dem Codepoint U+0041 ist 0x41. Ein Großteil der weltweiten Websites nutzen UTF-8 für das Speichern und Darstellen der HTML-Seiten.

(ID:49052983)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung