Какво е UNICODE

Languages Frequently asked questions

Какво е UNICODE?

Unicode (UCS-2 ISO 10646) е 16-битово кодиране на символи, което съдържа всички символи (216 = общо 65 536 различни символа), използвани често в основните световни езици, включително виетнамски. Универсалният набор от символи осигурява недвусмислено представяне на текст в различни писмености, езици и платформи. Той предоставя уникален номер, наричан кодова точка (или скаларна стойност), за всеки символ, независимо от платформата, програмата или езика. Стандартът Unicode е моделиран по набора от символи ASCII. Тъй като 7-битовият размер на символите на ASCII е недостатъчен за обработка на многоезичен текст, Unicode Consortium възприе 16-битова архитектура, която разширява предимствата на ASCII към многоезичен текст.

Символите Unicode са последователно с ширина 16 бита, независимо от езика, така че не е необходима escape последователност или контролен код, за да се посочи даден символ на даден език. Кодирането Unicode третира символите, азбучните символи и идеографските символи идентично, така че те могат да се използват едновременно и с еднаква лекота. Компютърните програми, които използват Unicode кодиране за представяне на символи, но не показват или отпечатват текст, могат (в по-голямата си част) да останат непроменени, когато се въвеждат нови писмености или символи.

Стандартът Unicode е възприет от индустриални лидери като Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys и много други. Unicode е задължителен за съвременни стандарти като XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML и т.н., и е официалният начин за имплементация на ISO/IEC 10646. Поддържа се в много операционни системи, всички съвременни браузъри и много други продукти. Появата на стандарта Unicode и наличието на инструменти, които го поддържат, предлагат значителни икономии на разходи в сравнение с използването на остарели набори от символи. Той позволява данните да бъдат пренасяни през много различни системи без повреда.

В момента редица държави, като Китай, Корея и Япония, са приели Unicode като свои национални стандарти, понякога след добавяне на допълнителни приложения с препратки към по-стари национални стандарти и спецификации на различни национални подмножества за имплементация.

През септември 2001 г. Министерството на науката, технологиите и околната среда на Виетнам (MOSTE) издаде стандарта TCVN 6909:2001, който се основава на ISO/ICE 10646 и Unicode 3.1, като нов национален стандарт за 16-битово кодиране на виетнамски символи.

Какво е UTF-8?
Стандартът Unicode (ISO 10646) дефинира 16-битов универсален набор от символи, който обхваща повечето световни писмени системи. Въпреки това 16-битовите символи не са съвместими с много съвременни приложения и протоколи, които предполагат 8-битови символи (като уеб) или дори 7-битови символи (като електронна поща), и това е довело до разработването на няколко така наречени UCS трансформационни формата (UTF), всеки с различни характеристики. Unicode предоставя байт-ориентирано кодиране, наречено UTF-8, което е проектирано за лесно използване със съществуващи системи, базирани на ASCII. UTF-8 е форматът за трансформация на Unicode, който сериализира кодовата точка на Unicode като уникална последователност от един до четири байта. Кодирането UTF-8 позволява Unicode да се използва по удобен и обратно съвместим начин в среди, които, подобно на Unix, са проектирани изцяло около ASCII. То беше въведено, за да осигури многобайтово кодиране, съвместимо с ASCII.

Форматът Unicode UTF-8 на ISO 10646 е предпочитаното стандартно кодиране на символи за интернационализация на протоколите за интернет приложения. Ще бъде най-разпространеният в световната мрежа. Тъй като е многобайтов формат, той естествено е подходящ за мрежата, тъй като самата мрежа е базирана на 8-битови протоколи. UTF-8 всъщност е единственият Unicode формат, който обикновено се поддържа от уеб браузърите.


Comments