Opticentre превежда на над 140 езика, включително редки и сложни писмености. Преводачи с роден език за всеки основен световен език. Получете оферта.
ISO 639 е стандартизирана номенклатура, използвана за класифициране на езиците. На всеки език се присвоява двубуквено (639-1) и трибуквено (639-2 и 639-3) съкращение с малки букви, допълвано в по-късните версии на номенклатурата. Системата е изключително полезна за лингвисти и етнографи за категоризиране на езиците, говорени на регионална основа, и за извършване на анализи в областта на лексикостатистиката. ISO 639 има пет списъка с кодове.
Unicode (UCS-2 ISO 10646) е 16-битово кодиране на символи, което съдържа всички символи (216 = общо 65 536 различни символа), използвани често в основните световни езици, включително виетнамски. Универсалният набор от символи осигурява недвусмислено представяне на текст в различни писмености, езици и платформи. Той предоставя уникален номер, наричан кодова точка (или скаларна стойност), за всеки символ, независимо от платформата, програмата или езика. Стандартът Unicode е моделиран по набора от символи ASCII. Тъй като 7-битовият размер на символите на ASCII е недостатъчен за обработка на многоезичен текст, Unicode Consortium възприе 16-битова архитектура, която разширява предимствата на ASCII към многоезичен текст.
Символите Unicode са последователно с ширина 16 бита, независимо от езика, така че не е необходима escape последователност или контролен код, за да се посочи даден символ на даден език. Кодирането Unicode третира символите, азбучните символи и идеографските символи идентично, така че те могат да се използват едновременно и с еднаква лекота. Компютърните програми, които използват Unicode кодиране за представяне на символи, но не показват или отпечатват текст, могат (в по-голямата си част) да останат непроменени, когато се въвеждат нови писмености или символи.
Стандартът Unicode е възприет от индустриални лидери като Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys и много други. Unicode е задължителен за съвременни стандарти като XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML и т.н., и е официалният начин за имплементация на ISO/IEC 10646. Поддържа се в много операционни системи, всички съвременни браузъри и много други продукти. Появата на стандарта Unicode и наличието на инструменти, които го поддържат, предлагат значителни икономии на разходи в сравнение с използването на остарели набори от символи. Той позволява данните да бъдат пренасяни през много различни системи без повреда.
В момента редица държави, като Китай, Корея и Япония, са приели Unicode като свои национални стандарти, понякога след добавяне на допълнителни приложения с препратки към по-стари национални стандарти и спецификации на различни национални подмножества за имплементация.
През септември 2001 г. Министерството на науката, технологиите и околната среда на Виетнам (MOSTE) издаде стандарта TCVN 6909:2001, който се основава на ISO/ICE 10646 и Unicode 3.1, като нов национален стандарт за 16-битово кодиране на виетнамски символи.
Какво е UTF-8?
Стандартът Unicode (ISO 10646) дефинира 16-битов универсален набор от символи, който обхваща повечето световни писмени системи. Въпреки това 16-битовите символи не са съвместими с много съвременни приложения и протоколи, които предполагат 8-битови символи (като уеб) или дори 7-битови символи (като електронна поща), и това е довело до разработването на няколко така наречени UCS трансформационни формата (UTF), всеки с различни характеристики. Unicode предоставя байт-ориентирано кодиране, наречено UTF-8, което е проектирано за лесно използване със съществуващи системи, базирани на ASCII. UTF-8 е форматът за трансформация на Unicode, който сериализира кодовата точка на Unicode като уникална последователност от един до четири байта. Кодирането UTF-8 позволява Unicode да се използва по удобен и обратно съвместим начин в среди, които, подобно на Unix, са проектирани изцяло около ASCII. То беше въведено, за да осигури многобайтово кодиране, съвместимо с ASCII.
Форматът Unicode UTF-8 на ISO 10646 е предпочитаното стандартно кодиране на символи за интернационализация на протоколите за интернет приложения. Ще бъде най-разпространеният в световната мрежа. Тъй като е многобайтов формат, той естествено е подходящ за мрежата, тъй като самата мрежа е базирана на 8-битови протоколи. UTF-8 всъщност е единственият Unicode формат, който обикновено се поддържа от уеб браузърите.
В петнадесетгодишната история на Unicode той се превърна в стандарт за кодиране на символи по избор в новите приложения. Той е стандартното кодиране за HTML и XML; той е основният тип символи в езици за програмиране като Java, C и JavaScript; и той е вътрешното кодиране на символи в операционните системи Windows и Macintosh. На практика всички разновидности на UNIX също включват поддръжка за него. Unicode е за изчисленията през двадесет и първи век това, което беше ASCII за изчисленията през двадесети век.
През октомври 2006 г. Unicode Consortium пусна най-новата версия на стандарта, версия 5.0. Новата версия съдържа много символи – малко под 100 000.
Две неща отличават стандарта Unicode от другите стандарти за кодиране на символи. Едното е самият размер и изчерпателност на неговите кодови назначения. Тези 100 000 назначения на символи обхващат всички символи във всички писмени системи за всички езици, често използвани в бизнеса днес, както и всички символи, необходими за много малцинствени езици и остарели писмени системи, и цяла гама от математически, научни и технически символи. Какъвто и символ да ви е необходим, шансовете са огромни, че Unicode го има, и ако не го има, никой друг стандарт за кодиране в разумно широка употреба също няма да го има. Тази изчерпателност дава възможност да се представи текст на всеки език или комбинация от езици, без да се притесняваме кой стандарт за кодиране на символи следва приложението или документът ни – и без да се притесняваме за промяна на този стандарт за кодиране в средата на документа или за липсващи символи, защото не можем да променим кодирането.
Естествено, тази изчерпателност създава предизвикателства при имплементацията, които трябва да бъдат решени. Например, много от световните писмени системи имат сложни двуизмерни свойства на подреждане, които не се преобразуват добре в линейна прогресия от числови кодове, и много могат да се анализират на „символи“ по различни начини. Може да се наложи да се вземат различни решения за кодиране за различни писмености, но все пак трябва да можете да ги смесвате в документ и нещата да работят разумно. Много символи имат сходен външен вид, което води до потенциални проблеми със сигурността, които трябва да бъдат решени. Също така не можете да заключите много за даден символ от позицията му в кодовото пространство или външния му вид в кодовите таблици. Има твърде много символи за това, като постоянно се добавят още.
Поради тези и много други проблеми, стандартът Unicode и придружаващите го Unicode Standard Annexes (накратко „UAXes“) надхвърлят далеч всеки друг стандарт за кодиране на символи при описанието как точно тези 100 000 назначения на символи се използват заедно, за да представят реален текст, и как софтуерът трябва да извършва различни процеси върху символите. Например, тъй като не можете да заключите нещата от позицията на даден символ в кодовото пространство, стандартът включва много голяма база данни със свойства на символите, които излагат в изключителни детайли такива неща като дали даден символ е буква или цифра, на кой друг символ (ако има такъв) е еквивалентен и т.н. Тъй като има повече кодове на символи, отколкото могат да бъдат представени в една 16-битова дума, стандартът дефинира различни схеми за представяне (Unicode ги нарича „форми на кодиране“), които оптимизират за различни ситуации. Тъй като Unicode позволява много символи да бъдат представени по повече от един начин, стандартът дефинира процеси за обработка на еквивалентностите. В стандарта са разгледани и много други сложности и предизвикателства.
Всеки текстов документ се състои от съдържание и оформление. Процесът на превод на документ има за цел да пресъздаде документ на целевия език, който е еквивалентен на изходния документ както по съдържание, така и по оформление. По този начин процесът на превод на документ има два основни подпроцеса: превод на съдържанието и корекция на оформлението. Преводът на съдържание трябва да бъде – и тъй като това е очевидно за повечето хора, обикновено е – извършван от носители на целевия език.
Ситуацията е различна в случая на корекции на оформлението. Съвременните преводачески инструменти са толкова добри в извличането на преводимите части от изходните документи, като същевременно защитават непреводимите форматиращи елементи, че тези корекции на оформлението може дори да не са необходими. Това обикновено се случва при превода на уеб формати като HTML или XML. Тъй като уеб оформлението е доста подвижно, като голяма част от действителното представяне се контролира от уеб браузъра, обикновено е достатъчно просто да се замени източникът с целевия текст. Ако целта обаче е да се изготвят преведени печатни документи, преведеният текст често трябва да бъде принудително поставен в предварително определено, фиксирано оформление. Поради времеви ограничения, съображения за разходите или други логистични фактори, настолните издатели често се сблъскват със задачата да редактират документ, от който не могат да прочетат нито една дума.
Въпреки че може да се осъди тази ситуация като нарушение на добрите практики, тя все пак е достатъчно често срещана, за да заслужава третиране като неразделна част от процеса на превод. Като такава тя изисква помощен материал, който да помогне на нечетящите в задачата им за корекция на оформлението.
В този брой ще разгледаме японския. Първата грижа, която може да има един настолен издател, е посоката на текста. Както мнозина знаят, японските книги традиционно се четат отдясно наляво, във формат на колона отгоре надолу, но научните и техническите публикации, включително потребителските ръководства за хардуер и софтуер, винаги се пишат отляво надясно в същия формат като английските документи. Изглежда, че мрежата разпространява този формат още по-нашироко. По този начин, когато англоезична техническа документация се превежда на японски, изходният текст просто трябва да бъде заменен с японски, а оформлението на документа трябва да остане същото.
Когато пространството е ограничено в печатната документация, често е необходимо ръчно да се коригират прекъсванията на редовете. За нечетящия японският текст изглежда плашещ на пръв поглед, тъй като думите често не са разделени с интервали. Въпреки това, писменият японски има редица повърхностни символи, които могат да предоставят полезни насоки.
Първо, японците използват препинателни знаци, за да разграничат изречения [точка], подчинени изречения (запетая) и вмъквания [скоби]. По този начин, точно както в английския, винаги е безопасно да се вмъкне прекъсване на ред след точка, или запетая, или затваряща скоба, или преди отваряща скоба. Когато чужди думи се транскрибират с японска писменост, интервалите се обозначават или със символа „·“, или с едно-байтов интервал. Вмъкването на прекъсване на ред непосредствено след тази точка или интервал е допустимо.
Японската писмена система използва три различни набора от символи, всеки за специфична цел. Китайските йероглифи, наречени канджи, се използват за предаване на концепции или значение на думите: те са логографски символи. По този начин канджи носят основното значение на японските текстове. Канджи са сравнително лесни за разпознаване, тъй като повечето от тези символи изглеждат доста сложни. Тъй като японският използва няколкостотин канджи, пълен списък е непрактичен.
Хирагана са символи с японски произход, които образуват сричкова азбука. Това означава, че подобно на английските букви, всеки символ означава звук, а не значение на дума. Въпреки това, докато английските букви обикновено представляват един звук, хирагана представляват цяла сричка.
Хирагана се използват за представяне на граматическа информация – тоест те приблизително съответстват на английските предлози, съюзи и подобни функционални думи. Хирагана обикновено се прикрепят в края на дума – тоест хирагана обикновено образуват единица с предшестващите канджи.
Катакана се използват за транскрибиране на чужди думи и имена. В някои случаи, като в продуктови имена или цели имена, японският също използва западна писменост, а арабските цифри обикновено се използват на японски точно както в английския.
Тъй като тези доста лесно различими набори от символи се използват за такива различни цели, е възможно да се направят някои полезни обобщения за основни корекции на оформлението.