Was ist der unicode standard, version 5.0

Sprachen Häufig gestellte Fragen

was ist der unicode standard, version 5.0?

In Unicodes fünfzehnjähriger Geschichte hat sich die Zeichenkodierung zum Standard der Wahl bei neuen Anwendungen entwickelt. Sie ist die Standard-Kodierung von HTML und XML, der fundamentale Zeichentyp in Programmiersprachen wie Java, C und JavaScript sowie die interne Zeichenkodierung in den Betriebssystemen Windows und Macintosh. Praktisch alle UNIX-Varianten unterstützen sie ebenfalls. Unicode ist für die Computertechnik des einundzwanzigsten Jahrhunderts das, was ASCII für die Computertechnik des zwanzigsten Jahrhunderts war.

Im Oktober 2006 veröffentlichte das Unicode Consortium die neueste Version des Standards, Version 5.0. Die neue Version enthält eine große Anzahl von Zeichen – knapp unter 100.000.

Zwei Dinge unterscheiden den Unicode-Standard von anderen Zeichenkodierungsstandards. Das eine ist die reine Größe und Vollständigkeit seiner Code-Zuweisungen. Diese 100.000 Zeichen-Zuweisungen decken alle Zeichen aller Schriftsysteme aller Sprachen ab, die heute in der geschäftlichen Praxis gebräuchlich sind, ebenso wie alle Zeichen, die für viele Minderheitensprachen und veraltete Schriftsysteme benötigt werden, sowie eine große Anzahl mathematischer, wissenschaftlicher und technischer Symbole. Für praktisch jedes benötigte Zeichen ist die Wahrscheinlichkeit überragend, dass Unicode es enthält; und falls nicht, wird kein anderer Zeichenkodierungsstandard mit angemessen breiter Verwendung es ebenfalls haben. Diese Vollständigkeit ermöglicht es, Texte in einer beliebigen Sprache oder Sprachenkombination darzustellen, ohne angeben zu müssen, welcher Zeichenkodierungsstandard Ihre Anwendung oder Ihr Dokument verwendet – und ohne sich Sorgen machen zu müssen, diese Kodierung in der Mitte Ihres Dokuments zu ändern oder auf Zeichen verzichten zu müssen, weil Sie die Kodierung nicht ändern können.

Diese Vollständigkeit stellt selbstverständlich Implementierungsherausforderungen dar, die bewältigt werden müssen. Viele der weltweit verwendeten Schriftsysteme haben zum Beispiel komplizierte zweidimensionale Ordnungseigenschaften, die nicht gut auf eine lineare Abfolge numerischer Codes abbilden lassen, und viele können auf unterschiedliche Weise in „Zeichen" analysiert werden. Für verschiedene Schriften müssen möglicherweise unterschiedliche Kodierungsentscheidungen getroffen werden, doch Sie müssen sie immer noch in einem Dokument mischen und alles sinnvoll funktionieren können. Viele Zeichen haben ähnliche Erscheinungsbilder, was potenzielle Sicherheitsprobleme mit sich bringt, die gelöst werden müssen. Sie können auch nicht viel über ein Zeichen aus seiner Position im Code-Raum oder seiner Darstellung in den Code-Tabellen ableiten. Es gibt einfach zu viele Zeichen, und ständig kommen neue hinzu.

Aufgrund dieser und vieler anderer Probleme gehen der Unicode-Standard und die begleitenden Unicode Standard Annexes (kurz „UAXes") weit über jeden anderen Zeichenkodierungsstandard hinaus, indem sie im Detail beschreiben, wie diese 100.000 Zeichen-Zuweisungen zusammen verwendet werden, um echten Text darzustellen, und wie Software verschiedene Prozesse mit den Zeichen durchführen soll. Da Sie beispielsweise nicht auf die Eigenschaften eines Zeichens aus seiner Position im Kodierungsraum schließen können, enthält der Standard eine sehr umfangreiche Datenbank von Zeicheneigenschaften, die in großem Detail festlegen, etwa ob ein Zeichen ein Buchstabe oder eine Ziffer ist, welchem anderen Zeichen (falls vorhanden) es entspricht, und so weiter. Da es mehr Zeichencodes gibt, als in einem einzelnen 16-Bit-Wort dargestellt werden können, definiert der Standard verschiedene Darstellungsschemen (Unicode nennt sie „Encoding Forms"), die für unterschiedliche Situationen optimieren. Da Unicode ermöglicht, dass viele Zeichen auf mehr als eine Weise dargestellt werden, definiert der Standard Prozesse für den Umgang mit diesen Entsprechungen. Viele weitere Komplexitäten und Herausforderungen werden ebenfalls im Standard behandelt.


Comments