Was ist unicode

Languages Frequently asked questions

was ist unicode?

Unicode (UCS-2 ISO 10646) ist eine 16-Bit-Zeichenkodierung, die alle Zeichen (216 = 65.536 verschiedene Zeichen insgesamt) enthält, die in den Hauptsprachen der Welt gebräuchlich sind, einschließlich Vietnamesisch. Der Universal Character Set bietet eine eindeutige Darstellung von Text über eine Vielzahl von Schriftsystemen, Sprachen und Plattformen. Er weist jedem Zeichen eine eindeutige Nummer zu, die als Code Point (oder Skalarwert) bezeichnet wird – unabhängig von der Plattform, dem Programm oder der Sprache. Der Unicode-Standard basiert auf dem ASCII-Zeichensatz. Da ASCIIs 7-Bit-Zeichengröße für mehrsprachige Texte unzureichend ist, hat das Unicode Consortium eine 16-Bit-Architektur übernommen, die die Vorteile von ASCII auf mehrsprachige Texte ausweitet.

Unicode-Zeichen sind durchgehend 16 Bit breit, unabhängig von der Sprache, sodass keine Escape-Sequenz oder Steuercode erforderlich ist, um ein beliebiges Zeichen in einer beliebigen Sprache anzugeben. Die Unicode-Zeichenkodierung behandelt Symbole, alphabetische Zeichen und ideografische Zeichen identisch, sodass sie gleichzeitig und mit gleicher Leichtigkeit verwendet werden können. Computerprogramme, die Unicode-Zeichenkodierung zur Darstellung von Zeichen verwenden, aber Text nicht anzeigen oder drucken, können bei der Einführung neuer Schriften oder Zeichen (größtenteils) unverändert bleiben.

Der Unicode-Standard wurde von Branchenführern wie Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys und vielen anderen übernommen. Unicode ist erforderlich durch moderne Standards wie XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML usw. und ist die offizielle Methode zur Implementierung von ISO/IEC 10646. Es wird in vielen Betriebssystemen, allen modernen Browsern und vielen anderen Produkten unterstützt. Das Aufkommen des Unicode-Standards und die Verfügbarkeit von unterstützenden Tools bieten erhebliche Kosteneinsparungen gegenüber der Verwendung von älteren Zeichensätzen. Es ermöglicht den Transport von Daten durch viele verschiedene Systeme ohne Beschädigungen.

Gegenwärtig haben eine Reihe von Ländern wie China, Korea und Japan Unicode als ihre nationalen Standards übernommen, manchmal nach Hinzufügen zusätzlicher Anhänge mit Querverweisen zu älteren nationalen Standards und Spezifikationen verschiedener nationaler Implementierungs-Teilmengen.

Im September 2001 gab Vietnams Ministerium für Wissenschaft, Technologie und Umwelt (MOSTE) den Standard TCVN 6909:2001 heraus, der auf ISO/IEC 10646 und Unicode 3.1 basiert, als neuer nationaler Standard für vietnamesische 16-Bit-Zeichenkodierung.

Was ist UTF-8?
Der Unicode-Standard (ISO 10646) definiert einen universellen 16-Bit-Zeichensatz, der die meisten Schriftsysteme der Welt umfasst. 16-Bit-Zeichen sind jedoch nicht kompatibel mit vielen aktuellen Anwendungen und Protokollen, die 8-Bit-Zeichen (wie das Web) oder sogar 7-Bit-Zeichen (wie E-Mail) voraussetzen, und dies hat zur Entwicklung einiger sogenannter UCS-Transformationsformate (UTF) geführt, jedes mit unterschiedlichen Eigenschaften. Unicode bietet eine byte-orientierte Kodierung namens UTF-8, die für die einfache Verwendung mit bestehenden ASCII-basierten Systemen konzipiert ist. UTF-8 ist das Unicode-Transformationsformat, das einen Unicode-Code-Point als eindeutige Sequenz von ein bis vier Bytes serialisiert. Die UTF-8-Kodierung ermöglicht die Verwendung von Unicode auf bequeme und rückwärtskompatible Weise in Umgebungen, die wie Unix vollständig um ASCII herum konzipiert sind. Es wurde eingeführt, um eine ASCII-rückwärtskompatible Multi-Byte-Kodierung bereitzustellen.

Das Unicode UTF-8-Format von ISO 10646 ist die bevorzugte Standard-Zeichenkodierung für die Internationalisierung von Internet-Anwendungsprotokollen. Es wird am häufigsten im World Wide Web anzutreffen sein. Als Multi-Byte-Format ist es natürlich für das Web geeignet, da das Web selbst auf 8-Bit-Protokollen basiert. UTF-8 ist tatsächlich das einzige Unicode-Format, das von Webbrowsern üblicherweise unterstützt wird.


Comments