Idiomas

Preguntas frecuentes

Idiomas

Opticentre traduce a más de 140 idiomas, incluidos sistemas de escritura raros y complejos. Traductores nativos para cada idioma principal del mundo. Obtenga una oferta.


Listado de abreviaturas de idiomas?

ISO 639 es una nomenclatura estandarizada utilizada para clasificar idiomas. A cada idioma se le asigna una abreviatura de dos letras (639-1) y tres letras (639-2 y 639-3), en minúsculas, que se ha modificado en versiones posteriores de la nomenclatura. El sistema es muy útil para lingüistas y etnógrafos a fin de categorizar los idiomas hablados sobre una base regional y realizar análisis en el campo de la lexicoestadística. ISO 639 cuenta con cinco listas de códigos.

  • AR Árabe
  • BE Bielorruso
  • BG Búlgaro
  • CS Checo
  • CY Galés
  • DA Danés
  • DE Alemán
  • EL Griego
  • EN Inglés
  • EO Esperanto
  • ES Español
  • ET Estonio
  • FI Finlandés
  • FR Francés
  • GA Irlandés
  • GD Gaélico escocés
  • HU Húngaro
  • HY Armenio
  • ID Indonesio
  • IS Islandés
  • IT Italiano
  • JA Japonés
  • KO Coreano
  • LT Lituano
  • LV Letón
  • MK/SL Macedonio
  • MN Mongol
  • MO Moldavo
  • NE Nepalí
  • NL Holandés
  • NN Noruego
  • PL Polaco
  • PT Portugués
  • RO Rumano
  • RU Ruso
  • SK Eslovaco
  • SL Esloveno
  • SQ Albanés
  • SR Serbio
  • SV Sueco
  • TH Tailandés
  • TR Turco
  • UK Ucraniano
  • VI Vietnamita
  • YI Yidis
  • ZH Chino

Leer más

¿Qué es UNICODE??

Unicode (UCS-2 ISO 10646) es una codificación de caracteres de 16 bits que contiene todos los caracteres (216 = 65.536 caracteres diferentes en total) de uso común en los principales idiomas del mundo, incluido el vietnamita. El Conjunto Universal de Caracteres proporciona una representación inequívoca del texto en una amplia gama de escrituras, idiomas y plataformas. Proporciona un número único, denominado punto de código (o valor escalar), para cada carácter, independientemente de la plataforma, el programa o el idioma. El estándar Unicode se basa en el conjunto de caracteres ASCII. Dado que el tamaño de carácter de 7 bits de ASCII es insuficiente para manejar texto multilingüe, el Consorcio Unicode adoptó una arquitectura de 16 bits que extiende los beneficios de ASCII al texto multilingüe.

Los caracteres Unicode tienen consistentemente 16 bits de ancho, independientemente del idioma, por lo que no se requiere secuencia de escape ni código de control para especificar ningún carácter en ningún idioma. La codificación de caracteres Unicode trata símbolos, caracteres alfabéticos y caracteres ideográficos de forma idéntica, de modo que pueden utilizarse simultáneamente y con igual facilidad. Los programas de ordenador que utilizan codificación de caracteres Unicode para representar caracteres pero no muestran ni imprimen texto pueden (en su mayor parte) permanecer inalterados cuando se introducen nuevas escrituras o caracteres.

El Estándar Unicode ha sido adoptado por líderes del sector como Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys y muchos otros. Unicode es obligatorio en estándares modernos como XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc., y es la forma oficial de implementar ISO/IEC 10646. Es compatible con muchos sistemas operativos, todos los navegadores modernos y muchos otros productos. La aparición del Estándar Unicode y la disponibilidad de herramientas que lo respaldan ofrecen ahorros significativos en costes respecto al uso de conjuntos de caracteres heredados. Permite que los datos se transporten a través de muchos sistemas diferentes sin corrupción.

En la actualidad, varios países, como China, Corea y Japón, han adoptado Unicode como sus estándares nacionales, a veces después de añadir anexos adicionales con referencias cruzadas a estándares nacionales antiguos y especificaciones de diversos subconjuntos de implementación nacional.

En septiembre de 2001, el Ministerio de Ciencia, Tecnología y Medio Ambiente de Vietnam (MOSTE) emitió el estándar TCVN 6909:2001, que se basa en ISO/ICE 10646 y Unicode 3.1, como nuevo estándar nacional para la codificación de caracteres vietnamita de 16 bits.

¿Qué es UTF-8?
El Estándar Unicode (ISO 10646) define un conjunto universal de caracteres de 16 bits que abarca la mayoría de los sistemas de escritura del mundo. Sin embargo, los caracteres de 16 bits no son compatibles con muchas aplicaciones y protocolos actuales que asumen caracteres de 8 bits (como la Web) o incluso de 7 bits (como el correo electrónico), lo que ha llevado al desarrollo de varios formatos de transformación UCS (UTF), cada uno con características diferentes. Unicode proporciona una codificación orientada a bytes denominada UTF-8 que ha sido diseñada para facilitar su uso con sistemas existentes basados en ASCII. UTF-8 es el Formatooo de Transformación Unicode que serializa un punto de código Unicode como una secuencia única de uno a cuatro bytes. La codificación UTF-8 permite que Unicode se utilice de forma cómoda y compatible con versiones anteriores en entornos que, como Unix, fueron diseñados completamente alrededor de ASCII. Se introdujo para proporcionar una codificación multibyte compatible con versiones anteriores de ASCII.

El formato Unicode UTF-8 de ISO 10646 es la codificación de caracteres predeterminada preferida para la internacionalización de protocolos de aplicaciones de Internet. Será la más común en la World Wide Web. Al ser un formato multibyte, es naturalmente adecuado para la web ya que la propia web se basa en protocolos de 8 bits. UTF-8 es, de hecho, el único formato Unicode que es comúnmente compatible con los navegadores web.

Leer más

¿Qué es el Estándar UNICODE, Versión 5.0??

En los quince años de historia de Unicode, se ha convertido en el estándar de codificación de caracteres elegido en nuevas aplicaciones. Es la codificación predeterminada de HTML y XML; es el tipo de carácter fundamental en lenguajes de programación como Java, C y JavaScript; y es la codificación de caracteres interna en los sistemas operativos Windows y Macintosh. Prácticamente todas las variantes de UNIX también incluyen soporte para él. Unicode es para la informática del siglo veintiuno lo que ASCII fue para la informática del siglo veinte.

En octubre de 2006, el Consorcio Unicode lanzó la versión más reciente del estándar, Versión 5.0. La nueva versión contiene una gran cantidad de caracteres: casi 100.000.

Dos aspectos diferencian el estándar Unicode de otros estándares de codificación de caracteres. Uno es el tamaño y la exhaustividad de sus asignaciones de código. Esas casi 100.000 asignaciones de caracteres cubren todos los caracteres de todos los sistemas de escritura de todos los idiomas en uso comercial común actualmente, así como todos los caracteres necesarios para muchos idiomas minoritarios y sistemas de escritura obsoletos, además de una gran variedad de símbolos matemáticos, científicos y técnicos. Sea cual sea el carácter que necesite, las probabilidades son abrumadoramente altas de que Unicode lo tenga; y si no lo tiene, tampoco lo tendrá ningún otro estándar de codificación en uso razonablemente extendido. Esta exhaustividad permite representar texto en cualquier idioma o combinación de idiomas sin preocuparse por especificar qué estándar de codificación de caracteres sigue su aplicación o documento, ni por cambiar esa codificación en medio del documento ni por quedarse sin caracteres porque no pueda cambiar la codificación.

Naturalmente, esta exhaustividad plantea desafíos de implementación que deben abordarse. Por ejemplo, muchos de los sistemas de escritura del mundo tienen propiedades de ordenación bidimensionales complicadas que no se adaptan bien a una progresión lineal de códigos numéricos, y muchos pueden analizarse en «caracteres» de diferentes maneras. Pueden ser necesarias diferentes decisiones de codificación para diferentes escrituras, pero aun así debe poder mezclarlas en un documento y conseguir que funcionen correctamente. Muchos caracteres tienen apariencias similares, lo que genera posibles problemas de seguridad que deben abordarse. Tampoco puede deducir mucho sobre un carácter a partir de su posición en el espacio de códigos o su apariencia en los gráficos de códigos. Hay demasiados caracteres para eso, y se añaden más constantemente.

Por estas razones y muchas otras, el estándar Unicode y sus Anexos del Estándar Unicode acompañantes («UAXes» en abreviatura) van mucho más allá de cualquier otro estándar de codificación de caracteres al describir cómo esas casi 100.000 asignaciones de caracteres se utilizan conjuntamente para representar texto real y cómo el software debe realizar varios procesos en los caracteres. Por ejemplo, puesto que no puede deducir cosas a partir de la posición de un carácter en el espacio de codificación, el estándar incluye una base de datos muy grande de propiedades de caracteres que especifican en gran detalle aspectos como si un carácter es una letra o un dígito, qué otro carácter (si alguno) le es equivalente, etcétera. Dado que hay más códigos de caracteres de los que se pueden representar en una palabra de 16 bits, el estándar define diferentes esquemas de representación (Unicode los denomina «formas de codificación») que se optimizan para diferentes situaciones. Puesto que Unicode permite que muchos caracteres se representen de más de una forma, el estándar define procesos para tratar las equivalencias. El estándar también aborda muchas otras complejidades y desafíos.

Leer más

Saltos de línea en japonés?

Todo documento de texto consta de contenido y maquetación. El proceso de traducción de documentos tiene como objetivo recrear un documento en la lengua de destino que sea equivalente al documento de origen tanto en contenido como en maquetación. Por lo tanto, el proceso de traducción de documentos tiene dos subprocesos principales: la traducción del contenido y el ajuste de la maquetación. La traducción del contenido debe ser —y puesto que esto es evidente para la mayoría de las personas, generalmente lo es— realizada por hablantes nativos de la lengua de destino.

La situación es diferente en el caso de los ajustes de maquetación. Las herramientas de traducción modernas son tan eficaces a la hora de extraer las porciones de texto traducibles de los documentos de origen protegiendo los elementos de formato no traducibles que es posible que estos ajustes de maquetación ni siquiera sean necesarios. Esto es típicamente el caso de la traducción de formatos web como HTML o XML. Dado que la maquetación web es bastante fluida, con gran parte de la presentación real controlada por el navegador web, generalmente es suficiente simplemente reemplazar el texto de origen con el de destino. Sin embargo, si el objetivo es producir documentos impresos traducidos, el texto traducido a menudo debe ajustarse a una maquetación fija y predeterminada. Debido a limitaciones de tiempo, consideraciones de costes u otros factores logísticos, los diseñadores de autoedición a menudo se encuentran con la tarea de retocar un documento del que son incapaces de leer ni una sola palabra.

Aunque se puede lamentar esta situación como una violación de las mejores prácticas, es lo suficientemente común como para justificar su tratamiento como parte integral del proceso de traducción. Como tal, requiere material de apoyo para ayudar a los no lectores en su tarea de ajuste de maquetación.

En este artículo, nos centraremos en el japonés. La primera preocupación que puede tener un diseñador de autoedición es la direccionalidad del texto. Como muchas personas saben, los libros japoneses tradicionalmente se leen de derecha a izquierda, en un formato de columna de arriba hacia abajo, pero las publicaciones científicas y técnicas, incluidos los manuales de usuario de hardware y software, siempre se escriben de izquierda a derecha con el mismo formato que los documentos en inglés. Internet parece estar extendiendo aún más este formato. Por lo tanto, cuando la documentación técnica en inglés se traduce al japonés, el texto de origen simplemente debe reemplazarse con japonés, y la maquetación del documento debe permanecer tal como está.

Cuando el espacio es reducido en la documentación impresa, a menudo es necesario ajustar manualmente los saltos de línea. Para los no lectores, el texto japonés parece desalentador a primera vista, ya que las palabras a menudo no van separadas por espacios. Sin embargo, el japonés escrito tiene una serie de caracteres superficiales que pueden proporcionar una orientación útil.

En primer lugar, el japonés utiliza signos de puntuación para delimitar oraciones [punto], subcláusulas (coma) e inserciones [paréntesis]. Por lo tanto, al igual que en inglés, siempre es seguro insertar un salto de línea después de un punto, una coma, un paréntesis de cierre, o antes de un paréntesis de apertura. Cuando las palabras extranjeras se transcriben al script japonés, los espacios se indican bien con el carácter ' o con un espacio de un byte. Es aceptable insertar un salto de línea inmediatamente después de este carácter de punto o del espacio.
El sistema de escritura japonés utiliza tres conjuntos diferentes de caracteres, cada uno para un propósito específico. Los caracteres chinos llamados kanji se utilizan para transmitir conceptos o significado de palabras: son símbolos logográficos. Por lo tanto, los kanji llevan el significado principal de los textos japoneses. Los kanji son bastante fáciles de reconocer, ya que la mayoría de estos símbolos tienen un aspecto bastante intrincado. Dado que el japonés utiliza muchos cientos de kanji, un listado completo no es práctico.

El hiragana son símbolos de origen japonés que forman un silabario. Esto significa que, como las letras inglesas, cada símbolo representa un sonido del habla en lugar del significado de una palabra. Sin embargo, mientras que las letras inglesas generalmente representan un sonido único, el hiragana representa una sílaba completa.
El hiragana se utiliza para representar información gramatical, es decir, corresponden aproximadamente en inglés a preposiciones, conjunciones y palabras funcionales similares. El hiragana generalmente se adjunta al final de una palabra, es decir, el hiragana típicamente forma una unidad con el kanji precedente.
El katakana se utiliza para transcribir palabras y nombres extranjeros. En algunos casos, como en nombres de productos o nombres completos, el japonés también utiliza script occidental, y los números arábigos se utilizan comúnmente en japonés tal como en inglés.

Puesto que estos conjuntos de símbolos bastante fácilmente distinguibles se utilizan para propósitos tan diferentes, es posible hacer algunas generalizaciones útiles para ajustes básicos de maquetación.

  • Trate de no separar símbolos kanji adyacentes, es decir, los kanji adyacentes deben mantenerse juntos en la medida de lo posible. Sin embargo, cuando una serie larga de kanji [tres o más] se extiende más allá del límite de línea, puede separarlos.
  • Menos de tres hiragana adyacentes y katakana adyacentes siempre deben mantenerse juntos. Cualquier serie de tres o más caracteres hiragana o katakana generalmente puede separarse. La única excepción es una combinación de caracteres que forma una única sílaba. Estas combinaciones de caracteres, sin embargo, también son fácilmente identificables, ya que el segundo y tercer carácter son más pequeños que el primero. Además, el signo de vocal larga, es decir, adjunto al hiragana o katakana, nunca debe separarse de los caracteres precedentes porque este signo constituye parte de la misma sílaba.
  • Nunca separe kanji / katakana / script occidental del hiragana inmediatamente siguiente.
  • Nunca separe números arábigos del kanji inmediatamente siguiente.
  • Puede separar números arábigos del hiragana / katakana / script occidental inmediatamente siguiente.
  • Puede separar hiragana del kanji / katakana / script occidental / números arábigos inmediatamente siguientes.
  • Puede separar katakana del kanji / script occidental / números arábigos inmediatamente siguientes.
  • Puede separar kanji del katakana / script occidental / números arábigos inmediatamente siguientes.
  • Puede separar script occidental del kanji / katakana / números arábigos inmediatamente siguientes.

Leer más