Opticentre traduce in oltre 140 lingue, inclusi alfabeti rari e complessi. Traduttori madrelingua per ogni principale lingua mondiale. Richiedi un'offerta.
ISO 639 è una nomenclatura standardizzata utilizzata per classificare le lingue. A ogni lingua viene assegnata un'abbreviazione a due lettere (639-1) e a tre lettere (639-2 e 639-3), in minuscolo, secondo le versioni successive della nomenclatura. Il sistema è estremamente utile per linguisti ed etnografi al fine di categorizzare le lingue parlate su base regionale e per condurre analisi nel campo della lessicografia comparata. ISO 639 comprende cinque elenchi di codici.
Unicode (UCS-2 ISO 10646) è una codifica di caratteri a 16 bit che contiene tutti i caratteri (216 = 65.536 caratteri diversi in totale) in uso comune nei principali linguaggi del mondo, incluso il vietnamita. Lo Universal Character Set fornisce una rappresentazione univoca del testo su una gamma di script, linguaggi e piattaforme. Fornisce un numero univoco, chiamato code point (o scalar value), per ogni carattere, indipendentemente dalla piattaforma, dal programma o dal linguaggio. Lo standard Unicode è modellato sul set di caratteri ASCII. Poiché la dimensione di 7 bit di ASCII è inadeguata per gestire testi multilingue, l'Unicode Consortium ha adottato un'architettura a 16 bit che estende i vantaggi di ASCII al testo multilingue.
I caratteri Unicode hanno sempre una larghezza di 16 bit, indipendentemente dal linguaggio, quindi non è richiesta alcuna sequenza di escape o codice di controllo per specificare alcun carattere in alcun linguaggio. La codifica Unicode dei caratteri tratta simboli, caratteri alfabetici e caratteri ideografici in modo identico, in modo che possano essere utilizzati simultaneamente e con uguale facilità. I programmi per computer che utilizzano la codifica Unicode per rappresentare i caratteri ma non visualizzano o stampano testo possono (nella maggior parte dei casi) rimanere invariati quando vengono introdotti nuovi script o caratteri.
Lo standard Unicode è stato adottato da leader del settore come Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys e molti altri. Unicode è richiesto da standard moderni come XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, ecc., ed è il modo ufficiale di implementare ISO/IEC 10646. È supportato in molti sistemi operativi, in tutti i browser moderni e in molti altri prodotti. L'emergere dello standard Unicode e la disponibilità di strumenti che lo supportano offrono risparmi significativi rispetto all'utilizzo di set di caratteri legacy. Consente il trasporto dei dati attraverso molti sistemi diversi senza corruzione.
Attualmente, un certo numero di paesi, come Cina, Corea e Giappone, hanno adottato Unicode come standard nazionale, talvolta dopo aver aggiunto ulteriori allegati con riferimenti incrociati a standard nazionali più datati e specifiche di vari sottoinsiemi di implementazione nazionale.
Nel settembre 2001, il Ministero della Scienza, della Tecnologia e dell'Ambiente (MOSTE) del Vietnam ha emanato lo standard TCVN 6909:2001, basato su ISO/ICE 10646 e Unicode 3.1, come nuovo standard nazionale per la codifica di caratteri vietnamita a 16 bit.
Che cos'è UTF-8?
Lo standard Unicode (ISO 10646) definisce un set di caratteri universali a 16 bit che comprende la maggior parte dei sistemi di scrittura del mondo. I caratteri a 16 bit, tuttavia, non sono compatibili con molte applicazioni e protocolli attuali che presuppongono caratteri a 8 bit (come il Web) o persino caratteri a 7 bit (come la posta), il che ha portato allo sviluppo di alcuni cosiddetti formati di trasformazione UCS (UTF), ognuno con caratteristiche diverse. Unicode fornisce una codifica orientata ai byte chiamata UTF-8 che è stata progettata per un uso facile con i sistemi basati su ASCII esistenti. UTF-8 è il formato di trasformazione Unicode che serializza un code point Unicode come una sequenza univoca da uno a quattro byte. La codifica UTF-8 consente l'utilizzo di Unicode in modo conveniente e compatibile con le versioni precedenti in ambienti che, come Unix, sono stati progettati interamente intorno ad ASCII. È stato introdotto per fornire una codifica multibyte compatibile con le versioni precedenti di ASCII.
Il formato Unicode UTF-8 di ISO 10646 è la codifica di caratteri predefinita preferita per l'internazionalizzazione dei protocolli delle applicazioni Internet. Sarà più comune nel World Wide Web. Essendo un formato a più byte, è naturalmente adatto al web poiché il web stesso è basato su protocolli a 8 bit. UTF-8, in effetti, è l'unico formato Unicode comunemente supportato dai browser web.
Nei quindici anni di storia di Unicode, è diventato lo standard di codifica dei caratteri preferito nelle nuove applicazioni. È la codifica predefinita di HTML e XML; è il tipo di carattere fondamentale in linguaggi di programmazione come Java, C e JavaScript; ed è la codifica interna dei caratteri nei sistemi operativi Windows e Macintosh. Praticamente tutti i sapori di UNIX includono il supporto anche per esso. Unicode è per l'informatica del ventunesimo secolo quello che ASCII era per l'informatica del ventesimo secolo.
In ottobre 2006, il Consorzio Unicode ha rilasciato la versione più recente dello standard, Versione 5.0. La nuova versione contiene moltissimi caratteri, poco meno di 100.000.
Due aspetti distinguono lo standard Unicode dagli altri standard di codifica dei caratteri. Uno è la dimensione assoluta e la completezza dei suoi assegnamenti di codice. Questi 100.000 assegnamenti di caratteri coprono tutti i caratteri di tutti i sistemi di scrittura per tutte le lingue comunemente utilizzate negli affari odierni, nonché tutti i caratteri necessari per molte lingue minoritarie e sistemi di scrittura obsoleti, oltre a un'ampia gamma di simboli matematici, scientifici e tecnici. Qualunque sia il carattere di cui hai bisogno, le probabilità sono schiaccianti che Unicode lo contenga, e se non lo contiene, nessun altro standard di codifica in uso ragionevolmente ampio lo avrà comunque. Questa completezza rende possibile rappresentare il testo in qualsiasi lingua o combinazione di lingue senza doversi preoccupare di specificare quale standard di codifica dei caratteri segue la tua applicazione o il tuo documento, e senza doversi preoccupare di cambiare tale standard di codifica nel mezzo del documento o di restare senza caratteri perché non puoi cambiare la codifica.
Naturalmente, questa completezza pone sfide di implementazione che devono essere affrontate. Ad esempio, molti dei sistemi di scrittura del mondo hanno proprietà di ordinamento bidimensionale complicate che non si adattano bene a una progressione lineare di codici numerici, e molti possono essere analizzati in "caratteri" in modi diversi. Decisioni di codifica diverse potrebbero essere necessarie per script diversi, eppure devi comunque essere in grado di combinarli in un documento e far funzionare le cose sensatamente. Molti caratteri hanno aspetti simili, portando a potenziali problemi di sicurezza che devono essere affrontati. Non puoi nemmeno dedurre molto su un carattere dalla sua posizione nello spazio di codice o dal suo aspetto nei grafici di codice. Ci sono troppi caratteri per questo, con altri che vengono aggiunti continuamente.
A causa di questi e molti altri problemi, lo standard Unicode e i suoi Unicode Standard Annexes accompagnatori (abbreviati "UAX") vanno molto oltre qualsiasi altro standard di codifica dei caratteri nel descrivere come questi 100.000 assegnamenti di caratteri vengono utilizzati insieme per rappresentare testo reale e come il software dovrebbe eseguire vari processi sui caratteri. Ad esempio, poiché non puoi dedurre cose dalla posizione di un carattere nello spazio di codifica, lo standard include un database molto grande di proprietà dei caratteri che descrivono in dettagli considerevoli aspetti quali se un carattere è una lettera o una cifra, quale altro carattere (se presente) gli è equivalente e così via. Poiché ci sono più codici di carattere di quanti possono essere rappresentati in una singola parola a 16 bit, lo standard definisce diversi schemi di rappresentazione (Unicode li chiama "forme di codifica") che ottimizzano per situazioni diverse. Poiché Unicode consente a molti caratteri di essere rappresentati in più di un modo, lo standard definisce processi per affrontare le equivalenze. Molte altre complessità e sfide sono affrontate anche nello standard.
Qualsiasi documento di testo è costituito da contenuto e impaginazione. Il processo di traduzione di un documento mira a ricreare un documento nella lingua di destinazione che sia equivalente al documento di partenza sia nel contenuto che nell'impaginazione. Pertanto, il processo di traduzione del documento ha due sotto-processi principali: traduzione dei contenuti e adeguamento dell'impaginazione. La traduzione dei contenuti deve essere - e poiché questo è evidente alla maggior parte delle persone, generalmente lo è - effettuata da madrelingua della lingua di destinazione.
La situazione è diversa nel caso degli adeguamenti dell'impaginazione. Gli strumenti di traduzione moderni sono così efficaci nell'estrarre le porzioni di testo traducibile dai documenti di partenza proteggendo al contempo gli elementi di formattazione non traducibili che gli adeguamenti dell'impaginazione potrebbero non essere nemmeno necessari. Questo è tipicamente il caso della traduzione di formati web come HTML o XML. Poiché l'impaginazione web è piuttosto fluida, con gran parte della presentazione effettiva controllata dal browser web, è generalmente sufficiente semplicemente sostituire il testo di partenza con quello di destinazione. Se l'obiettivo è produrre documenti stampati tradotti, tuttavia, il testo tradotto spesso deve essere inserito in un layout fisso e predeterminato. A causa di vincoli di tempo, considerazioni di costo o altri fattori logistici, gli esperti di impaginazione spesso si trovano di fronte al compito di ritoccare un documento del quale non sono in grado di leggere una sola parola.
Sebbene si possa deprecare questa situazione come una violazione delle best practice, è tuttavia abbastanza comune da giustificare un trattamento come parte integrante del processo di traduzione. Come tale, richiede materiale di supporto per aiutare i non-lettori nel loro compito di adeguamento dell'impaginazione.
In questo articolo esamineremo il giapponese. La prima preoccupazione che un esperto di impaginazione potrebbe avere è la direzionalità del testo. Come molti sanno, i libri giapponesi sono tradizionalmente letti da destra a sinistra, in formato colonna da alto a basso, ma le pubblicazioni scientifiche e tecniche, inclusi i manuali utente per hardware e software, sono sempre scritte da sinistra a destra nello stesso formato dei documenti inglesi. Il web sembra diffondere ulteriormente questo formato. Pertanto, quando la documentazione tecnica in lingua inglese viene tradotta in giapponese, il testo di partenza dovrebbe semplicemente essere sostituito con il giapponese e l'impaginazione del documento dovrebbe restare così com'è.
Quando lo spazio è limitato nella documentazione stampata, è spesso necessario adeguare manualmente le interruzioni di riga. Per i non-lettori, il testo giapponese appare sconcertante a prima vista, poiché le parole spesso non sono separate da spazi. Tuttavia, il giapponese scritto ha una serie di caratteri di superficie che possono fornire una guida utile.
In primo luogo, il giapponese utilizza segni di punteggiatura per delimitare le frasi [punto], le subordinate (virgola) e gli inserimenti [parentesi]. Pertanto, proprio come in inglese, è sempre sicuro inserire un'interruzione di riga dopo un punto, una virgola o una parentesi di chiusura, o prima di una parentesi di apertura. Quando le parole straniere vengono trascritte nella scrittura giapponese, gli spazi sono indicati con il carattere ' o uno spazio a un byte. L'inserimento di un'interruzione di riga immediatamente dopo questo carattere punto o lo spazio è accettabile.
Il sistema di scrittura giapponese utilizza tre diversi set di caratteri, ognuno per uno scopo specifico. I caratteri cinesi chiamati kanji vengono utilizzati per trasmettere concetti o significato di parole: sono simboli logografici. Pertanto, i kanji trasmettono il significato principale dei testi giapponesi. I kanji sono abbastanza facili da riconoscere, poiché la maggior parte di questi simboli appare piuttosto intricata. Poiché il giapponese utilizza molte centinaia di kanji, un elenco completo è impraticabile.
Gli hiragana sono simboli di origine giapponese che formano una sillabario. Questo significa che, come le lettere inglesi, ogni simbolo rappresenta un suono del linguaggio piuttosto che un significato di parola. Tuttavia, mentre le lettere inglesi generalmente rappresentano un singolo suono, gli hiragana rappresentano un'intera sillaba.
Gli hiragana vengono utilizzati per rappresentare informazioni grammaticali, cioè, corrispondono approssimativamente in inglese alle preposizioni, congiunzioni e parole funzionali simili. Gli hiragana sono generalmente attaccati alla fine di una parola, cioè, gli hiragana tipicamente formano un'unità con il kanji precedente.
I katakana vengono utilizzati per la trascrizione di parole e nomi stranieri. In alcuni casi, come nei nomi di prodotti o interi nomi, il giapponese utilizza anche la scrittura occidentale, e i numeri arabi sono comunemente utilizzati in giapponese proprio come in inglese.
Poiché questi set di simboli abbastanza facilmente distinguibili vengono utilizzati per scopi così diversi, è possibile fare alcune generalizzazioni utili per gli adeguamenti di base dell'impaginazione.