Wat is de unicode standard, versie 5.0

Idiomas Preguntas frecuentes

wat is de unicode standard, versie 5.0?

In Unicode's vijftienjarige geschiedenis is het de tekencoderingsstandaard van keuze in nieuwe applicaties geworden. Het is de standaardcodering van HTML en XML; het is het fundamentele tekentype in programmeertalen zoals Java, C en JavaScript; en het is de interne tekencodering in de Windows- en Macintosh-besturingssystemen. Praktisch alle UNIX-varianten bieden er ook ondersteuning voor. Unicode is voor informatica in de eenentwintigste eeuw wat ASCII was voor informatica in de twintigste eeuw.

In oktober 2006 bracht het Unicode Consortium de nieuwste versie van de standaard uit, versie 5.0. De nieuwe versie bevat veel tekens – bijna 100.000.

Twee zaken onderscheiden de Unicode-standaard van andere tekencoderingsstandaarden. Ten eerste is het de omvang en volledigheid van de codetoewijzingen. Die 100.000 tekentowijzingen beslaan alle tekens in alle schriftsystemen voor alle talen die vandaag in algemeen zakelijk gebruik zijn, evenals alle tekens die nodig zijn voor veel minderheidstalen en verouderde schriftsystemen, en een groot aantal wiskundige, wetenschappelijke en technische symbolen. Welk teken u ook nodig heeft, de kans is zeer groot dat Unicode het heeft, en als dat niet het geval is, zal geen ander veelgebruikt coderingsstandaard het hebben. Deze volledigheid maakt het mogelijk teksten in elke taal of combinatie van talen weer te geven zonder u zorgen te hoeven maken over welke tekencoderingsstandaard uw applicatie of document volgt – en zonder u zorgen te hoeven maken over het wijzigen van die coderingsstandaard in het midden van uw document of het ontberen van tekens omdat u de codering niet kunt wijzigen.

Deze volledigheid brengt natuurlijk implementatieuitdagingen met zich mee die moeten worden aangepakt. Bijvoorbeeld, veel van 's werelds schriftsystemen hebben gecompliceerde tweedimensionale ordeningseigenschappen die niet goed aansluiten op een lineaire progressie van numerieke codes, en veel kunnen op verschillende manieren in 'tekens' worden geanalyseerd. Voor verschillende scripts moeten mogelijk verschillende coderingsbeslissingen worden genomen, maar u moet ze nog steeds in een document kunnen mengen en alles goed laten werken. Veel tekens hebben vergelijkbare verschijningen, wat tot potentiële beveiligingsproblemen kan leiden die moeten worden aangepakt. U kunt ook niet veel afleiden uit een teken op basis van zijn positie in de coderuimte of zijn verschijning in de codecijfers. Er zijn te veel tekens voor dat doel, met meer die voortdurend worden toegevoegd.

Vanwege deze en veel andere problemen gaat de Unicode-standaard en de bijbehorende Unicode Standard Annexes (kortweg 'UAX'en') veel verder dan enige andere tekencoderingsstandaard bij het beschrijven van hoe die 100.000 tekentowijzingen samen worden gebruikt om echte teksten weer te geven en hoe software verschillende processen op de tekens moet uitvoeren. Omdat u bijvoorbeeld niet kunt afleiden uit de positie van een teken in de coderingsruimte, bevat de standaard een zeer grote database met tekeneigenschappen die in groot detail aangeven of een teken bijvoorbeeld een letter of een cijfer is, welk ander teken (indien aanwezig) het equivalent is, enzovoort. Omdat er meer tekenencodes zijn dan in één enkel 16-bits woord kunnen worden weergegeven, definieert de standaard verschillende representatieschema's (Unicode noemt ze 'coderingsvormen') die voor verschillende situaties zijn geoptimaliseerd. Omdat Unicode veel tekens op meer dan één manier kan weergeven, definieert de standaard processen voor het omgaan met equivalenties. Veel andere complexiteiten en uitdagingen worden ook in de standaard aangepakt.


Comments