Opticentre vertaalt naar meer dan 140 talen, inclusief zeldzame en complexe schriftsystemen. Moedertaalsprekers voor elke belangrijke wereldtaal. Vraag een offerte aan.
ISO 639 is een gestandaardiseerde nomenclatuur die wordt gebruikt voor het classificeren van talen. Aan elke taal wordt een twee-letter (639-1) en drie-letter (639-2 en 639-3) afkorting in kleine letters toegewezen, die in latere versies van de nomenclatuur zijn aangevuld. Het systeem is zeer nuttig voor taalkundigen en ethnografen om talen op regionaal niveau in te delen en analyses uit te voeren op het gebied van lexicostatistiek. ISO 639 heeft vijf codelijsten.
Unicode (UCS-2 ISO 10646) is een 16-bits tekencodering die alle karakters (216 = 65.536 verschillende karakters totaal) bevat die veel voorkomen in de grote talen van de wereld, inclusief Vietnamees. De Universal Character Set biedt een ondubbelzinnige weergave van tekst in verschillende scripts, talen en platforms. Het biedt een uniek getal, een code point (of scalaire waarde) genoemd, voor elk karakter, ongeacht het platform, ongeacht het programma, ongeacht de taal. De Unicode-standaard is gemodelleerd naar de ASCII-tekenset. Omdat ASCII's 7-bits tekengrootte ontoereikend is voor meertalige tekst, heeft het Unicode Consortium een 16-bits architectuur aangenomen die de voordelen van ASCII uitbreidt naar meertalige tekst.
Unicode-karakters zijn consistent 16 bits breed, ongeacht de taal, dus er is geen escape-reeks of besturingscode nodig om een karakter in welke taal dan ook op te geven. Unicode-tekencodering behandelt symbolen, alfabetische karakters en ideografische karakters identiek, zodat zij gelijktijdig en met gelijke gemak kunnen worden gebruikt. Computerprogramma's die Unicode-tekencodering gebruiken om karakters voor te stellen, maar die tekst niet weergeven of afdrukken, kunnen (grotendeels) ongewijzigd blijven wanneer nieuwe scripts of karakters worden geïntroduceerd.
De Unicode-standaard is aangenomen door belangrijke bedrijven zoals Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys en vele anderen. Unicode is vereist door moderne standaarden zoals XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc., en is de officiële manier om ISO/IEC 10646 te implementeren. Het wordt ondersteund in veel besturingssystemen, alle moderne browsers en veel andere producten. Het ontstaan van de Unicode-standaard en de beschikbaarheid van tools die deze ondersteunen, biedt aanzienlijke kostenbesparing ten opzichte van het gebruik van verouderde tekensets. Het stelt gegevens in staat om zonder beschadiging door veel verschillende systemen te worden getransporteerd.
Op dit moment hebben een aantal landen, zoals China, Korea en Japan, Unicode aangenomen als hun nationale standaarden, soms nadat zij aanvullende bijlagen hebben toegevoegd met kruisverwijzingen naar oudere nationale standaarden en specificaties van verschillende nationale implementatiesubsets.
In september 2001 gaf Vietnam's Ministerie van Wetenschap, Technologie en Milieu (MOSTE) de standaard TCVN 6909:2001 uit, die is gebaseerd op ISO/IEC 10646 en Unicode 3.1, als de nieuwe nationale standaard voor Vietnamese 16-bits tekencodering.
Wat is UTF-8?
De Unicode-standaard (ISO 10646) definieert een 16-bits universele tekenset die de meeste schriftsystemen van de wereld omvat. 16-bits karakters zijn echter niet compatibel met veel huidige toepassingen en protocollen die 8-bits karakters (zoals het Web) of zelfs 7-bits karakters (zoals e-mail) veronderstellen, en dit heeft geleid tot de ontwikkeling van enkele zogenaamde UCS-transformatie-indelingen (UTF), elk met verschillende kenmerken. Unicode voorziet in een byte-georiënteerde codering genaamd UTF-8 die is ontworpen voor gemak bij gebruik met bestaande ASCII-gebaseerde systemen. UTF-8 is het Unicode Transformation Indeling dat een Unicode-code point serialiseert als een unieke reeks van één tot vier bytes. De UTF-8-codering stelt Unicode in staat op een gemakkelijke en achterwaarts compatibele manier te worden gebruikt in omgevingen die, zoals Unix, volledig rond ASCII zijn ontworpen. Het werd geïntroduceerd om een ASCII-achterwaarts compatibele multi-byte-codering te bieden.
Het Unicode UTF-8-formaat van ISO 10646 is de voorkeursstandaard-tekencodering voor internationalisering van Internet-toepassingsprotocollen. Het zal het meest voorkomen op het world wide web. Omdat het een multi-byte-formaat is, is het van nature geschikt voor het web, aangezien het web zelf is gebaseerd op 8-bits protocollen. UTF-8 is in feite het enige Unicode-formaat dat veel door webbrowsers wordt ondersteund.
In Unicode's vijftienjarige geschiedenis is het de tekencoderingsstandaard van keuze in nieuwe applicaties geworden. Het is de standaardcodering van HTML en XML; het is het fundamentele tekentype in programmeertalen zoals Java, C en JavaScript; en het is de interne tekencodering in de Windows- en Macintosh-besturingssystemen. Praktisch alle UNIX-varianten bieden er ook ondersteuning voor. Unicode is voor informatica in de eenentwintigste eeuw wat ASCII was voor informatica in de twintigste eeuw.
In oktober 2006 bracht het Unicode Consortium de nieuwste versie van de standaard uit, versie 5.0. De nieuwe versie bevat veel tekens – bijna 100.000.
Twee zaken onderscheiden de Unicode-standaard van andere tekencoderingsstandaarden. Ten eerste is het de omvang en volledigheid van de codetoewijzingen. Die 100.000 tekentowijzingen beslaan alle tekens in alle schriftsystemen voor alle talen die vandaag in algemeen zakelijk gebruik zijn, evenals alle tekens die nodig zijn voor veel minderheidstalen en verouderde schriftsystemen, en een groot aantal wiskundige, wetenschappelijke en technische symbolen. Welk teken u ook nodig heeft, de kans is zeer groot dat Unicode het heeft, en als dat niet het geval is, zal geen ander veelgebruikt coderingsstandaard het hebben. Deze volledigheid maakt het mogelijk teksten in elke taal of combinatie van talen weer te geven zonder u zorgen te hoeven maken over welke tekencoderingsstandaard uw applicatie of document volgt – en zonder u zorgen te hoeven maken over het wijzigen van die coderingsstandaard in het midden van uw document of het ontberen van tekens omdat u de codering niet kunt wijzigen.
Deze volledigheid brengt natuurlijk implementatieuitdagingen met zich mee die moeten worden aangepakt. Bijvoorbeeld, veel van 's werelds schriftsystemen hebben gecompliceerde tweedimensionale ordeningseigenschappen die niet goed aansluiten op een lineaire progressie van numerieke codes, en veel kunnen op verschillende manieren in 'tekens' worden geanalyseerd. Voor verschillende scripts moeten mogelijk verschillende coderingsbeslissingen worden genomen, maar u moet ze nog steeds in een document kunnen mengen en alles goed laten werken. Veel tekens hebben vergelijkbare verschijningen, wat tot potentiële beveiligingsproblemen kan leiden die moeten worden aangepakt. U kunt ook niet veel afleiden uit een teken op basis van zijn positie in de coderuimte of zijn verschijning in de codecijfers. Er zijn te veel tekens voor dat doel, met meer die voortdurend worden toegevoegd.
Vanwege deze en veel andere problemen gaat de Unicode-standaard en de bijbehorende Unicode Standard Annexes (kortweg 'UAX'en') veel verder dan enige andere tekencoderingsstandaard bij het beschrijven van hoe die 100.000 tekentowijzingen samen worden gebruikt om echte teksten weer te geven en hoe software verschillende processen op de tekens moet uitvoeren. Omdat u bijvoorbeeld niet kunt afleiden uit de positie van een teken in de coderingsruimte, bevat de standaard een zeer grote database met tekeneigenschappen die in groot detail aangeven of een teken bijvoorbeeld een letter of een cijfer is, welk ander teken (indien aanwezig) het equivalent is, enzovoort. Omdat er meer tekenencodes zijn dan in één enkel 16-bits woord kunnen worden weergegeven, definieert de standaard verschillende representatieschema's (Unicode noemt ze 'coderingsvormen') die voor verschillende situaties zijn geoptimaliseerd. Omdat Unicode veel tekens op meer dan één manier kan weergeven, definieert de standaard processen voor het omgaan met equivalenties. Veel andere complexiteiten en uitdagingen worden ook in de standaard aangepakt.
Elk tekstdocument bestaat uit inhoud en opmaak. Het doel van documentvertaling is het creëren van een document in de doeltaal dat zowel inhoudelijk als qua opmaak gelijkwaardig is aan het brondocument. Het documentvertalingsproces kent daarom twee hoofdsubprocessen: inhoudsvertaling en opmaakaanpassingen. Inhoudsvertaling moet worden uitgevoerd door moedertaalsprekers van de doeltaal – en omdat dit voor de meeste mensen duidelijk is, gebeurt dit over het algemeen ook.
De situatie is anders bij opmaakaanpassingen. Moderne vertaalhulpmiddelen zijn zo goed geworden in het extraheren van vertaalbare tekstgedeelten uit brondocumenten en het beschermen van niet-vertaalbare opmaakelementendat deze opmaakaanpassingen mogelijk niet eens nodig zijn. Dit is typisch het geval voor de vertaling van webformaten zoals HTML of XML. Omdat webopmaak vrij dynamisch is en een groot deel van de presentatie door de webbrowser wordt bepaald, volstaat het doorgaans om eenvoudig de brontekst door de doeltekst te vervangen. Als het doel is om vertaalde gedrukte documenten te produceren, moet de vertaalde tekst echter vaak in een voorafbepaalde, vaste opmaak worden geplaatst. Vanwege tijdsbeperkingen, kostenoverweging of andere logistieke factoren worden desktoppublishers regelmatig geconfronteerd met de taak om een document op te maken waarvan zij geen enkel woord kunnen lezen.
Hoewel men deze situatie als een schending van best practices kan betreuren, komt het vaak genoeg voor om het als integraal onderdeel van het vertalingsproces te behandelen. Daarom zijn ondersteuningsmateriaal nodig om niet-lezers bij hun opmaakaanpassingstaken te helpen.
In dit artikel richten we ons op het Japans. De eerste zorg van een desktoppublisher betreft de tekstrichting. Zoals veel mensen weten, worden Japanse boeken traditioneel van rechts naar links gelezen in een top-naar-beneden kolomindeling, maar wetenschappelijke en technische publicaties, inclusief gebruikshandleidingen voor hardware en software, worden altijd van links naar rechts geschreven in dezelfde indeling als Engelse documenten. Het internet lijkt dit formaat nog verder te verspreiden. Daarom moet bij de vertaling van Engelstalige technische documentatie naar het Japans de brontekst eenvoudig door het Japans worden vervangen en moet de documentopmaak ongewijzigd blijven.
Als de ruimte in gedrukte documentatie beperkt is, is het vaak nodig om regelafbrekingen handmatig aan te passen. Voor niet-lezers ziet Japanse tekst op het eerste gezicht ontmoedigend uit, omdat woorden vaak niet door spaties worden gescheiden. Het geschreven Japans heeft echter een aantal oppervlaktekarakters die nuttige aanwijzingen kunnen geven.
Ten eerste gebruiken Japanners leestekens om zinnen [punt], bijzinnen (komma) en aanvoegingen [haakjes] af te bakenen. Net als in het Engels is het altijd veilig om een regelafbreking in te voegen na een punt, komma of sluitend haakje, of voor een openend haakje. Wanneer vreemde woorden in Japans schrift worden geschreven, worden spaties aangegeven met het ' teken of een spatie van één byte. Een regelafbreking onmiddellijk na dit puntkarakters of de spatie is aanvaardbaar.
Het Japanse schriftsysteem maakt gebruik van drie verschillende karaktersetsen, elk voor een specifiek doel. Chinese karakters genaamd kanji worden gebruikt om concepten of woordbetekenissen over te brengen: het zijn logografische symbolen. Kanji dragen dus de belangrijkste betekenis van Japanse teksten. Kanji zijn vrij gemakkelijk te herkennen, omdat de meeste van deze symbolen behoorlijk ingewikkeld ogen. Omdat het Japans honderden kanji gebruikt, is een volledige lijst onpraktisch.
Hiragana zijn symbolen van Japanse oorsprong die een lettergreepschrift vormen. Dit betekent dat, net als Engelse letters, elk symbool voor een spraakklanken staat in plaats van voor een woordbetekenis. Echter, terwijl Engelse letters over het algemeen een enkele klanken vertegenwoordigen, vertegenwoordigen hiragana een volledige lettergreep.
Hiragana worden gebruikt om grammaticale informatie weer te geven – dat wil zeggen, ze komen ruwweg overeen met voorzetels, voegwoorden en soortgelijke functiewoorden in het Engels. Hiragana zijn doorgaans aan het einde van een woord bevestigd – dat wil zeggen, hiragana vormen doorgaans een eenheid met voorafgaande kanji.
Katakana worden gebruikt voor het schrijven van vreemde woorden en namen. In sommige gevallen, zoals bij productnamen of volledige namen, maakt het Japans ook gebruik van Westerse schriften, en Arabische cijfers worden in het Japans net zo veel gebruikt als in het Engels.
Aangezien deze vrij gemakkelijk onderscheidbare symbolensets voor zulke verschillende doeleinden worden gebruikt, is het mogelijk om nuttige generalisaties te maken voor basale opmaakaanpassingen.