Wat is unicode

Languages Frequently asked questions

wat is unicode?

Unicode (UCS-2 ISO 10646) is een 16-bits tekencodering die alle karakters (216 = 65.536 verschillende karakters totaal) bevat die veel voorkomen in de grote talen van de wereld, inclusief Vietnamees. De Universal Character Set biedt een ondubbelzinnige weergave van tekst in verschillende scripts, talen en platforms. Het biedt een uniek getal, een code point (of scalaire waarde) genoemd, voor elk karakter, ongeacht het platform, ongeacht het programma, ongeacht de taal. De Unicode-standaard is gemodelleerd naar de ASCII-tekenset. Omdat ASCII's 7-bits tekengrootte ontoereikend is voor meertalige tekst, heeft het Unicode Consortium een 16-bits architectuur aangenomen die de voordelen van ASCII uitbreidt naar meertalige tekst.

Unicode-karakters zijn consistent 16 bits breed, ongeacht de taal, dus er is geen escape-reeks of besturingscode nodig om een karakter in welke taal dan ook op te geven. Unicode-tekencodering behandelt symbolen, alfabetische karakters en ideografische karakters identiek, zodat zij gelijktijdig en met gelijke gemak kunnen worden gebruikt. Computerprogramma's die Unicode-tekencodering gebruiken om karakters voor te stellen, maar die tekst niet weergeven of afdrukken, kunnen (grotendeels) ongewijzigd blijven wanneer nieuwe scripts of karakters worden geïntroduceerd.

De Unicode-standaard is aangenomen door belangrijke bedrijven zoals Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys en vele anderen. Unicode is vereist door moderne standaarden zoals XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc., en is de officiële manier om ISO/IEC 10646 te implementeren. Het wordt ondersteund in veel besturingssystemen, alle moderne browsers en veel andere producten. Het ontstaan van de Unicode-standaard en de beschikbaarheid van tools die deze ondersteunen, biedt aanzienlijke kostenbesparing ten opzichte van het gebruik van verouderde tekensets. Het stelt gegevens in staat om zonder beschadiging door veel verschillende systemen te worden getransporteerd.

Op dit moment hebben een aantal landen, zoals China, Korea en Japan, Unicode aangenomen als hun nationale standaarden, soms nadat zij aanvullende bijlagen hebben toegevoegd met kruisverwijzingen naar oudere nationale standaarden en specificaties van verschillende nationale implementatiesubsets.

In september 2001 gaf Vietnam's Ministerie van Wetenschap, Technologie en Milieu (MOSTE) de standaard TCVN 6909:2001 uit, die is gebaseerd op ISO/IEC 10646 en Unicode 3.1, als de nieuwe nationale standaard voor Vietnamese 16-bits tekencodering.

Wat is UTF-8?
De Unicode-standaard (ISO 10646) definieert een 16-bits universele tekenset die de meeste schriftsystemen van de wereld omvat. 16-bits karakters zijn echter niet compatibel met veel huidige toepassingen en protocollen die 8-bits karakters (zoals het Web) of zelfs 7-bits karakters (zoals e-mail) veronderstellen, en dit heeft geleid tot de ontwikkeling van enkele zogenaamde UCS-transformatie-indelingen (UTF), elk met verschillende kenmerken. Unicode voorziet in een byte-georiënteerde codering genaamd UTF-8 die is ontworpen voor gemak bij gebruik met bestaande ASCII-gebaseerde systemen. UTF-8 is het Unicode Transformation Format dat een Unicode-code point serialiseert als een unieke reeks van één tot vier bytes. De UTF-8-codering stelt Unicode in staat op een gemakkelijke en achterwaarts compatibele manier te worden gebruikt in omgevingen die, zoals Unix, volledig rond ASCII zijn ontworpen. Het werd geïntroduceerd om een ASCII-achterwaarts compatibele multi-byte-codering te bieden.

Het Unicode UTF-8-formaat van ISO 10646 is de voorkeursstandaard-tekencodering voor internationalisering van Internet-toepassingsprotocollen. Het zal het meest voorkomen op het world wide web. Omdat het een multi-byte-formaat is, is het van nature geschikt voor het web, aangezien het web zelf is gebaseerd op 8-bits protocollen. UTF-8 is in feite het enige Unicode-formaat dat veel door webbrowsers wordt ondersteund.


Comments