Langues

Questions fréquentes

Langues

Opticentre traduit dans plus de 140 langues, y compris des écritures rares et complexes. Des traducteurs de langue maternelle pour chaque langue mondiale majeure. Demandez un devis.


Liste des abréviations de langues?

ISO 639 est une nomenclature standardisée utilisée pour classer les langues. Chaque langue se voit attribuer une abréviation à deux lettres (639-1) et à trois lettres (639-2 et 639-3), en minuscules, amendée dans les versions ultérieures de la nomenclature. Le système est très utile aux linguistes et ethnographes pour classer les langues parlées sur une base régionale et pour effectuer des analyses en lexicostatistique. ISO 639 compte cinq listes de codes.

  • AR Arabe
  • BE Biélorusse
  • BG Bulgare
  • CS Tchèque
  • CY Gallois
  • DA Danois
  • DE Allemand
  • EL Grec
  • EN Anglais
  • EO Espéranto
  • ES Espagnol
  • ET Estonien
  • FI Finnois
  • FR Français
  • GA Irlandais
  • GD Gaélique écossais
  • HU Hongrois
  • HY Arménien
  • ID Indonésien
  • IS Islandais
  • IT Italien
  • JA Japonais
  • KO Coréen
  • LT Lituanien
  • LV Letton
  • MK/SL Macédonien
  • MN Mongol
  • MO Moldave
  • NE Népalais
  • NL Néerlandais
  • NN Norvégien
  • PL Polonais
  • PT Portugais
  • RO Roumain
  • RU Russe
  • SK Slovaque
  • SL Slovène
  • SQ Albanais
  • SR Serbe
  • SV Suédois
  • TH Thaï
  • TR Turc
  • UK Ukrainien
  • VI Vietnamien
  • YI Yiddish
  • ZH Chinois

Lire la suite

Qu'est-ce qu'UNICODE?

Unicode (UCS-2 ISO 10646) est un codage de caractères sur 16 bits qui contient tous les caractères (216 = 65 536 caractères différents au total) couramment utilisés dans les principales langues du monde, y compris le vietnamien. Le jeu universel de caractères (Universal Character Set) fournit une représentation non ambiguë du texte dans de nombreuses écritures, langues et plateformes. Il attribue un numéro unique, appelé point de code (code point) ou valeur scalaire, à chaque caractère, quelle que soit la plateforme, le programme ou la langue. La norme Unicode est modelée sur le jeu de caractères ASCII. La taille des caractères ASCII sur 7 bits étant insuffisante pour gérer du texte multilingue, le Consortium Unicode a adopté une architecture 16 bits qui étend les avantages d'ASCII au texte multilingue.

Les caractères Unicode ont systématiquement une largeur de 16 bits, quelle que soit la langue, de sorte qu'aucune séquence d'échappement ni code de contrôle n'est nécessaire pour spécifier un caractère dans une langue. Le codage Unicode traite de manière identique les symboles, caractères alphabétiques et idéographiques, qui peuvent donc être utilisés simultanément et avec la même facilité. Les programmes qui utilisent Unicode pour représenter les caractères mais n'affichent ni n'impriment de texte peuvent (le plus souvent) rester inchangés lorsque de nouvelles écritures ou de nouveaux caractères sont introduits.

La norme Unicode a été adoptée par des leaders industriels tels qu'Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys, et bien d'autres. Unicode est requise par des normes modernes telles que XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc., et constitue la façon officielle d'implémenter ISO/IEC 10646. Elle est prise en charge dans de nombreux systèmes d'exploitation, tous les navigateurs modernes et de nombreux autres produits. L'émergence de la norme Unicode et la disponibilité des outils associés permettent des économies significatives par rapport à l'utilisation de jeux de caractères anciens. Les données peuvent transiter par de nombreux systèmes sans corruption.

À l'heure actuelle, plusieurs pays, comme la Chine, la Corée et le Japon, ont adopté Unicode comme norme nationale, parfois après y avoir ajouté des annexes avec des correspondances vers d'anciennes normes nationales et des spécifications de sous-ensembles nationaux.

En septembre 2001, le Ministère des Sciences, des Technologies et de l'Environnement du Vietnam (MOSTE) a publié la norme TCVN 6909:2001, basée sur ISO/IEC 10646 et Unicode 3.1, comme nouvelle norme nationale pour le codage des caractères vietnamiens sur 16 bits.

Qu'est-ce qu'UTF-8 ?
La norme Unicode (ISO 10646) définit un jeu universel de caractères sur 16 bits qui englobe la plupart des systèmes d'écriture du monde. Or, les caractères 16 bits ne sont pas compatibles avec de nombreuses applications et protocoles actuels qui supposent des caractères 8 bits (comme le Web) voire 7 bits (comme la messagerie), ce qui a conduit au développement de plusieurs formats dits de transformation UCS (UTF), chacun avec des caractéristiques différentes. Unicode propose un codage orienté octet appelé UTF-8, conçu pour faciliter l'utilisation avec les systèmes ASCII existants. UTF-8 est le format de transformation Unicode qui sérialise un point de code Unicode sous forme d'une séquence unique de un à quatre octets. Le codage UTF-8 permet d'utiliser Unicode de manière pratique et rétrocompatible dans des environnements conçus entièrement autour d'ASCII, comme Unix. Il a été introduit pour fournir un codage multi-octets rétrocompatible avec ASCII.

Le format UTF-8 d'Unicode (ISO 10646) est le codage par défaut préféré pour l'internationalisation des protocoles applicatifs Internet. Il sera le plus courant sur le World Wide Web. En tant que format multi-octets, il convient naturellement au web, lui-même bâti sur des protocoles 8 bits. UTF-8 est d'ailleurs le seul format Unicode couramment pris en charge par les navigateurs web.

Lire la suite

Qu'est-ce que la norme UNICODE, Version 5.0?

En quinze ans d'existence, Unicode est devenu la norme de codage de caractères de choix dans les nouvelles applications. C'est le codage par défaut de HTML et XML ; c'est le type de caractères fondamental dans des langages de programmation tels que Java, C et JavaScript ; et c'est le codage interne des systèmes d'exploitation Windows et Macintosh. Pratiquement toutes les variantes d'UNIX le prennent également en charge. Unicode est à l'informatique du XXIe siècle ce qu'ASCII était à l'informatique du XXe siècle.

En octobre 2006, le Consortium Unicode a publié la nouvelle version de la norme, la Version 5.0. Cette nouvelle version contient beaucoup de caractères - un peu moins de 100 000.

Deux choses distinguent la norme Unicode des autres normes de codage de caractères. D'abord, l'ampleur et l'exhaustivité de ses attributions de codes. Ces 100 000 attributions couvrent tous les caractères de toutes les écritures des langues couramment utilisées dans le monde des affaires aujourd'hui, ainsi que tous les caractères nécessaires à de nombreuses langues minoritaires et écritures obsolètes, et tout un éventail de symboles mathématiques, scientifiques et techniques. Quel que soit le caractère dont vous avez besoin, il y a toutes les chances qu'Unicode l'ait, et sinon, aucune autre norme raisonnablement répandue ne l'aura. Cette exhaustivité permet de représenter du texte dans n'importe quelle langue ou combinaison de langues sans avoir à se soucier de spécifier la norme de codage suivie par votre application ou document - ni de la changer au milieu du document, ni de renoncer à certains caractères faute de pouvoir changer de codage.

Naturellement, cette exhaustivité pose des défis d'implémentation qu'il faut relever. Par exemple, de nombreux systèmes d'écriture du monde ont des propriétés d'ordonnancement bidimensionnel complexes qui ne se prêtent pas bien à une progression linéaire de codes numériques, et beaucoup peuvent être analysés en "caractères" de différentes façons. Des décisions de codage différentes peuvent devoir être prises pour différentes écritures, tout en devant pouvoir les mélanger dans un document de manière sensée. De nombreux caractères ont des apparences similaires, soulevant des questions de sécurité potentielles à traiter. Vous ne pouvez pas non plus déduire grand-chose d'un caractère à partir de sa position dans l'espace de codes ou de son apparence dans les tables de codes. Il y a trop de caractères pour cela, et d'autres sont ajoutés en permanence.

En raison de ces défis et de bien d'autres, la norme Unicode et ses annexes ("UAX") vont bien au-delà de toute autre norme de codage pour décrire comment ces 100 000 caractères sont utilisés ensemble pour représenter du texte réel et comment les logiciels doivent effectuer divers traitements sur les caractères. Par exemple, puisqu'on ne peut rien déduire de la position d'un caractère dans l'espace de codage, la norme inclut une très grande base de données de propriétés de caractères qui détaille minutieusement si un caractère est une lettre ou un chiffre, à quel autre caractère (le cas échéant) il équivaut, etc. Comme il y a plus de codes de caractères qu'on ne peut en représenter dans un unique mot de 16 bits, la norme définit différents schémas de représentation (qu'Unicode appelle "formes de codage") qui optimisent différentes situations. Comme Unicode permet de représenter de nombreux caractères de plusieurs façons, la norme définit des processus pour gérer ces équivalences. De nombreuses autres complexités et défis sont également traités dans la norme.

Lire la suite

Césures et retours à la ligne en japonais?

Tout document texte est constitué d'un contenu et d'une mise en page. Le processus de traduction de documents vise à recréer un document dans la langue cible équivalent au document source en termes de contenu et de mise en page. Le processus de traduction comporte donc deux sous-processus principaux : la traduction du contenu et l'ajustement de la mise en page. La traduction du contenu doit être - et, comme cela va de soi pour la plupart des gens, l'est généralement - effectuée par des locuteurs natifs de la langue cible.

La situation est différente pour les ajustements de mise en page. Les outils de traduction modernes sont si performants pour extraire les portions de texte traduisibles tout en protégeant les éléments de mise en forme non traduisibles que les ajustements peuvent même ne pas être nécessaires. C'est typiquement le cas pour la traduction de formats web comme HTML ou XML. La mise en page web étant assez fluide, avec une grande partie de la présentation réelle contrôlée par le navigateur, il suffit généralement de remplacer le texte source par le texte cible. Si l'objectif est de produire des documents imprimés traduits, le texte traduit doit toutefois souvent être contraint dans une mise en page prédéterminée et fixe. En raison des contraintes de délai, de coût ou d'autres facteurs logistiques, les maquettistes (desktop publishers) se retrouvent souvent à devoir retoucher un document dont ils ne peuvent pas lire un seul mot.

Bien qu'on puisse déplorer cette situation comme un manquement aux bonnes pratiques, elle est suffisamment courante pour mériter un traitement comme partie intégrante du processus de traduction. À ce titre, elle nécessite du matériel d'accompagnement pour aider les non-lecteurs dans leur tâche d'ajustement de mise en page.

Dans ce numéro, nous examinerons le japonais. La première préoccupation d'un maquettiste peut être la direction du texte. Comme beaucoup le savent, les livres japonais se lisent traditionnellement de droite à gauche, en colonnes de haut en bas, mais les publications scientifiques et techniques, y compris les manuels utilisateur de matériel et de logiciel, sont toujours écrites de gauche à droite, dans le même format que les documents anglais. Le web semble étendre ce format encore davantage. Ainsi, lorsque de la documentation technique en anglais est traduite en japonais, le texte source doit simplement être remplacé par le japonais, et la mise en page doit rester telle quelle.

Lorsque l'espace est réduit en documentation imprimée, il est souvent nécessaire d'ajuster manuellement les retours à la ligne. Pour un non-lecteur, le texte japonais peut sembler intimidant à première vue, car les mots ne sont souvent pas séparés par des espaces. Toutefois, le japonais écrit comporte un certain nombre de caractères de surface pouvant servir de repères utiles.

Tout d'abord, le japonais utilise des signes de ponctuation pour délimiter les phrases [point], les subordonnées (virgule) et les incises [parenthèses]. Ainsi, comme en anglais, on peut toujours insérer sans risque un retour à la ligne après un point, une virgule ou une parenthèse fermante, ou avant une parenthèse ouvrante. Lorsque des mots étrangers sont transcrits en japonais, les espaces sont indiqués soit par le caractère ' soit par un espace d'un octet. Insérer un retour à la ligne immédiatement après ce caractère point ou cet espace est acceptable.
Le système d'écriture japonais utilise trois jeux de caractères différents, chacun pour un usage spécifique. Les caractères chinois appelés kanji servent à transmettre des concepts ou le sens des mots : ce sont des symboles logographiques. Les kanji portent donc le sens principal des textes japonais. Ils sont assez faciles à reconnaître, car la plupart ont un aspect assez complexe. Le japonais utilisant plusieurs centaines de kanji, une liste complète n'est pas pratique.

Les hiragana sont des symboles d'origine japonaise formant un syllabaire. Cela signifie que, comme les lettres anglaises, chaque symbole représente un son plutôt que le sens d'un mot. Cependant, alors que les lettres anglaises représentent généralement un seul son, les hiragana représentent une syllabe entière.
Les hiragana servent à représenter des informations grammaticales - ils correspondent grossièrement aux prépositions, conjonctions et mots outils en anglais. Les hiragana sont généralement attachés à la fin d'un mot - ils forment typiquement une unité avec les kanji précédents.
Les katakana servent à transcrire les mots et noms étrangers. Dans certains cas, comme pour les noms de produits ou de sociétés, le japonais utilise aussi l'écriture occidentale, et les chiffres arabes sont couramment utilisés en japonais comme en anglais.

Ces jeux de symboles étant assez facilement distinguables et servant à des usages si différents, il est possible de formuler quelques généralisations utiles pour les ajustements basiques de mise en page.

  • Essayez de ne pas séparer des kanji adjacents - les kanji adjacents doivent rester ensemble autant que possible. Toutefois, lorsqu'une longue suite de kanji [trois ou plus] dépasse la limite de la ligne, vous pouvez les séparer.
  • Moins de trois hiragana ou katakana adjacents doivent toujours rester ensemble. Toute suite de plus de hiragana ou katakana peut généralement être séparée. La seule exception est une combinaison de caractères formant une seule syllabe. Ces combinaisons sont facilement identifiables : les deuxième et troisième caractères sont de taille plus petite que le premier. De plus, le signe de voyelle longue - attaché aux hiragana ou katakana - ne doit jamais être séparé des caractères précédents, car il fait partie de la même syllabe.
  • Ne séparez jamais kanji / katakana / écriture occidentale des hiragana immédiatement suivants.
  • Ne séparez jamais les chiffres arabes des kanji immédiatement suivants.
  • Vous pouvez séparer les chiffres arabes des hiragana / katakana / écriture occidentale immédiatement suivants.
  • Vous pouvez séparer les hiragana des kanji / katakana / écriture occidentale / chiffres arabes immédiatement suivants.
  • Vous pouvez séparer les katakana des kanji / écriture occidentale / chiffres arabes immédiatement suivants.
  • Vous pouvez séparer les kanji des katakana / écriture occidentale / chiffres arabes immédiatement suivants.
  • Vous pouvez séparer l'écriture occidentale des kanji / katakana / chiffres arabes immédiatement suivants.

Lire la suite