¿Qué es UNICODE?

Idiomas Preguntas frecuentes

¿Qué es UNICODE??

Unicode (UCS-2 ISO 10646) es una codificación de caracteres de 16 bits que contiene todos los caracteres (216 = 65.536 caracteres diferentes en total) de uso común en los principales idiomas del mundo, incluido el vietnamita. El Conjunto Universal de Caracteres proporciona una representación inequívoca del texto en una amplia gama de escrituras, idiomas y plataformas. Proporciona un número único, denominado punto de código (o valor escalar), para cada carácter, independientemente de la plataforma, el programa o el idioma. El estándar Unicode se basa en el conjunto de caracteres ASCII. Dado que el tamaño de carácter de 7 bits de ASCII es insuficiente para manejar texto multilingüe, el Consorcio Unicode adoptó una arquitectura de 16 bits que extiende los beneficios de ASCII al texto multilingüe.

Los caracteres Unicode tienen consistentemente 16 bits de ancho, independientemente del idioma, por lo que no se requiere secuencia de escape ni código de control para especificar ningún carácter en ningún idioma. La codificación de caracteres Unicode trata símbolos, caracteres alfabéticos y caracteres ideográficos de forma idéntica, de modo que pueden utilizarse simultáneamente y con igual facilidad. Los programas de ordenador que utilizan codificación de caracteres Unicode para representar caracteres pero no muestran ni imprimen texto pueden (en su mayor parte) permanecer inalterados cuando se introducen nuevas escrituras o caracteres.

El Estándar Unicode ha sido adoptado por líderes del sector como Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys y muchos otros. Unicode es obligatorio en estándares modernos como XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc., y es la forma oficial de implementar ISO/IEC 10646. Es compatible con muchos sistemas operativos, todos los navegadores modernos y muchos otros productos. La aparición del Estándar Unicode y la disponibilidad de herramientas que lo respaldan ofrecen ahorros significativos en costes respecto al uso de conjuntos de caracteres heredados. Permite que los datos se transporten a través de muchos sistemas diferentes sin corrupción.

En la actualidad, varios países, como China, Corea y Japón, han adoptado Unicode como sus estándares nacionales, a veces después de añadir anexos adicionales con referencias cruzadas a estándares nacionales antiguos y especificaciones de diversos subconjuntos de implementación nacional.

En septiembre de 2001, el Ministerio de Ciencia, Tecnología y Medio Ambiente de Vietnam (MOSTE) emitió el estándar TCVN 6909:2001, que se basa en ISO/ICE 10646 y Unicode 3.1, como nuevo estándar nacional para la codificación de caracteres vietnamita de 16 bits.

¿Qué es UTF-8?
El Estándar Unicode (ISO 10646) define un conjunto universal de caracteres de 16 bits que abarca la mayoría de los sistemas de escritura del mundo. Sin embargo, los caracteres de 16 bits no son compatibles con muchas aplicaciones y protocolos actuales que asumen caracteres de 8 bits (como la Web) o incluso de 7 bits (como el correo electrónico), lo que ha llevado al desarrollo de varios formatos de transformación UCS (UTF), cada uno con características diferentes. Unicode proporciona una codificación orientada a bytes denominada UTF-8 que ha sido diseñada para facilitar su uso con sistemas existentes basados en ASCII. UTF-8 es el Formatooo de Transformación Unicode que serializa un punto de código Unicode como una secuencia única de uno a cuatro bytes. La codificación UTF-8 permite que Unicode se utilice de forma cómoda y compatible con versiones anteriores en entornos que, como Unix, fueron diseñados completamente alrededor de ASCII. Se introdujo para proporcionar una codificación multibyte compatible con versiones anteriores de ASCII.

El formato Unicode UTF-8 de ISO 10646 es la codificación de caracteres predeterminada preferida para la internacionalización de protocolos de aplicaciones de Internet. Será la más común en la World Wide Web. Al ser un formato multibyte, es naturalmente adecuado para la web ya que la propia web se basa en protocolos de 8 bits. UTF-8 es, de hecho, el único formato Unicode que es comúnmente compatible con los navegadores web.


Comments