Che cos'è lo Standard Unicode, Versione 5.0

Lingue Domande frequenti

Che cos'è lo Standard Unicode, Versione 5.0?

Nei quindici anni di storia di Unicode, è diventato lo standard di codifica dei caratteri preferito nelle nuove applicazioni. È la codifica predefinita di HTML e XML; è il tipo di carattere fondamentale in linguaggi di programmazione come Java, C e JavaScript; ed è la codifica interna dei caratteri nei sistemi operativi Windows e Macintosh. Praticamente tutti i sapori di UNIX includono il supporto anche per esso. Unicode è per l'informatica del ventunesimo secolo quello che ASCII era per l'informatica del ventesimo secolo.

In ottobre 2006, il Consorzio Unicode ha rilasciato la versione più recente dello standard, Versione 5.0. La nuova versione contiene moltissimi caratteri, poco meno di 100.000.

Due aspetti distinguono lo standard Unicode dagli altri standard di codifica dei caratteri. Uno è la dimensione assoluta e la completezza dei suoi assegnamenti di codice. Questi 100.000 assegnamenti di caratteri coprono tutti i caratteri di tutti i sistemi di scrittura per tutte le lingue comunemente utilizzate negli affari odierni, nonché tutti i caratteri necessari per molte lingue minoritarie e sistemi di scrittura obsoleti, oltre a un'ampia gamma di simboli matematici, scientifici e tecnici. Qualunque sia il carattere di cui hai bisogno, le probabilità sono schiaccianti che Unicode lo contenga, e se non lo contiene, nessun altro standard di codifica in uso ragionevolmente ampio lo avrà comunque. Questa completezza rende possibile rappresentare il testo in qualsiasi lingua o combinazione di lingue senza doversi preoccupare di specificare quale standard di codifica dei caratteri segue la tua applicazione o il tuo documento, e senza doversi preoccupare di cambiare tale standard di codifica nel mezzo del documento o di restare senza caratteri perché non puoi cambiare la codifica.

Naturalmente, questa completezza pone sfide di implementazione che devono essere affrontate. Ad esempio, molti dei sistemi di scrittura del mondo hanno proprietà di ordinamento bidimensionale complicate che non si adattano bene a una progressione lineare di codici numerici, e molti possono essere analizzati in "caratteri" in modi diversi. Decisioni di codifica diverse potrebbero essere necessarie per script diversi, eppure devi comunque essere in grado di combinarli in un documento e far funzionare le cose sensatamente. Molti caratteri hanno aspetti simili, portando a potenziali problemi di sicurezza che devono essere affrontati. Non puoi nemmeno dedurre molto su un carattere dalla sua posizione nello spazio di codice o dal suo aspetto nei grafici di codice. Ci sono troppi caratteri per questo, con altri che vengono aggiunti continuamente.

A causa di questi e molti altri problemi, lo standard Unicode e i suoi Unicode Standard Annexes accompagnatori (abbreviati "UAX") vanno molto oltre qualsiasi altro standard di codifica dei caratteri nel descrivere come questi 100.000 assegnamenti di caratteri vengono utilizzati insieme per rappresentare testo reale e come il software dovrebbe eseguire vari processi sui caratteri. Ad esempio, poiché non puoi dedurre cose dalla posizione di un carattere nello spazio di codifica, lo standard include un database molto grande di proprietà dei caratteri che descrivono in dettagli considerevoli aspetti quali se un carattere è una lettera o una cifra, quale altro carattere (se presente) gli è equivalente e così via. Poiché ci sono più codici di carattere di quanti possono essere rappresentati in una singola parola a 16 bit, lo standard definisce diversi schemi di rappresentazione (Unicode li chiama "forme di codifica") che ottimizzano per situazioni diverse. Poiché Unicode consente a molti caratteri di essere rappresentati in più di un modo, lo standard definisce processi per affrontare le equivalenze. Molte altre complessità e sfide sono affrontate anche nello standard.


Comments