Opticentre übersetzt in über 140 Sprachen, einschließlich seltener und komplexer Schriftsysteme. Muttersprachliche Übersetzer für jede wichtige Weltsprache. Erhalten Sie ein Angebot.
ISO 639 ist eine standardisierte Nomenklatur zur Klassifizierung von Sprachen. Jede Sprache erhält eine zweistellige (639-1) und eine dreistellige (639-2 und 639-3) Abkürzung in Kleinbuchstaben, die in späteren Versionen der Nomenklatur angepasst wurden. Das System ist für Linguisten und Ethnographen äußerst nützlich, um Sprachen auf regionaler Basis zu kategorisieren und Analysen im Bereich der Lexikostatistik durchzuführen. ISO 639 umfasst fünf Codelisten.
Unicode (UCS-2 ISO 10646) ist eine 16-Bit-Zeichenkodierung, die alle Zeichen (216 = 65.536 verschiedene Zeichen insgesamt) enthält, die in den Hauptsprachen der Welt gebräuchlich sind, einschließlich Vietnamesisch. Der Universal Character Set bietet eine eindeutige Darstellung von Text über eine Vielzahl von Schriftsystemen, Sprachen und Plattformen. Er weist jedem Zeichen eine eindeutige Nummer zu, die als Code Point (oder Skalarwert) bezeichnet wird – unabhängig von der Plattform, dem Programm oder der Sprache. Der Unicode-Standard basiert auf dem ASCII-Zeichensatz. Da ASCIIs 7-Bit-Zeichengröße für mehrsprachige Texte unzureichend ist, hat das Unicode Consortium eine 16-Bit-Architektur übernommen, die die Vorteile von ASCII auf mehrsprachige Texte ausweitet.
Unicode-Zeichen sind durchgehend 16 Bit breit, unabhängig von der Sprache, sodass keine Escape-Sequenz oder Steuercode erforderlich ist, um ein beliebiges Zeichen in einer beliebigen Sprache anzugeben. Die Unicode-Zeichenkodierung behandelt Symbole, alphabetische Zeichen und ideografische Zeichen identisch, sodass sie gleichzeitig und mit gleicher Leichtigkeit verwendet werden können. Computerprogramme, die Unicode-Zeichenkodierung zur Darstellung von Zeichen verwenden, aber Text nicht anzeigen oder drucken, können bei der Einführung neuer Schriften oder Zeichen (größtenteils) unverändert bleiben.
Der Unicode-Standard wurde von Branchenführern wie Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys und vielen anderen übernommen. Unicode ist erforderlich durch moderne Standards wie XML, Java, .NET, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML usw. und ist die offizielle Methode zur Implementierung von ISO/IEC 10646. Es wird in vielen Betriebssystemen, allen modernen Browsern und vielen anderen Produkten unterstützt. Das Aufkommen des Unicode-Standards und die Verfügbarkeit von unterstützenden Tools bieten erhebliche Kosteneinsparungen gegenüber der Verwendung von älteren Zeichensätzen. Es ermöglicht den Transport von Daten durch viele verschiedene Systeme ohne Beschädigungen.
Gegenwärtig haben eine Reihe von Ländern wie China, Korea und Japan Unicode als ihre nationalen Standards übernommen, manchmal nach Hinzufügen zusätzlicher Anhänge mit Querverweisen zu älteren nationalen Standards und Spezifikationen verschiedener nationaler Implementierungs-Teilmengen.
Im September 2001 gab Vietnams Ministerium für Wissenschaft, Technologie und Umwelt (MOSTE) den Standard TCVN 6909:2001 heraus, der auf ISO/IEC 10646 und Unicode 3.1 basiert, als neuer nationaler Standard für vietnamesische 16-Bit-Zeichenkodierung.
Was ist UTF-8?
Der Unicode-Standard (ISO 10646) definiert einen universellen 16-Bit-Zeichensatz, der die meisten Schriftsysteme der Welt umfasst. 16-Bit-Zeichen sind jedoch nicht kompatibel mit vielen aktuellen Anwendungen und Protokollen, die 8-Bit-Zeichen (wie das Web) oder sogar 7-Bit-Zeichen (wie E-Mail) voraussetzen, und dies hat zur Entwicklung einiger sogenannter UCS-Transformationsformate (UTF) geführt, jedes mit unterschiedlichen Eigenschaften. Unicode bietet eine byte-orientierte Kodierung namens UTF-8, die für die einfache Verwendung mit bestehenden ASCII-basierten Systemen konzipiert ist. UTF-8 ist das Unicode-Transformationsformat, das einen Unicode-Code-Point als eindeutige Sequenz von ein bis vier Bytes serialisiert. Die UTF-8-Kodierung ermöglicht die Verwendung von Unicode auf bequeme und rückwärtskompatible Weise in Umgebungen, die wie Unix vollständig um ASCII herum konzipiert sind. Es wurde eingeführt, um eine ASCII-rückwärtskompatible Multi-Byte-Kodierung bereitzustellen.
Das Unicode UTF-8-Format von ISO 10646 ist die bevorzugte Standard-Zeichenkodierung für die Internationalisierung von Internet-Anwendungsprotokollen. Es wird am häufigsten im World Wide Web anzutreffen sein. Als Multi-Byte-Format ist es natürlich für das Web geeignet, da das Web selbst auf 8-Bit-Protokollen basiert. UTF-8 ist tatsächlich das einzige Unicode-Format, das von Webbrowsern üblicherweise unterstützt wird.
In Unicodes fünfzehnjähriger Geschichte hat sich die Zeichenkodierung zum Standard der Wahl bei neuen Anwendungen entwickelt. Sie ist die Standard-Kodierung von HTML und XML, der fundamentale Zeichentyp in Programmiersprachen wie Java, C und JavaScript sowie die interne Zeichenkodierung in den Betriebssystemen Windows und Macintosh. Praktisch alle UNIX-Varianten unterstützen sie ebenfalls. Unicode ist für die Computertechnik des einundzwanzigsten Jahrhunderts das, was ASCII für die Computertechnik des zwanzigsten Jahrhunderts war.
Im Oktober 2006 veröffentlichte das Unicode Consortium die neueste Version des Standards, Version 5.0. Die neue Version enthält eine große Anzahl von Zeichen – knapp unter 100.000.
Zwei Dinge unterscheiden den Unicode-Standard von anderen Zeichenkodierungsstandards. Das eine ist die reine Größe und Vollständigkeit seiner Code-Zuweisungen. Diese 100.000 Zeichen-Zuweisungen decken alle Zeichen aller Schriftsysteme aller Sprachen ab, die heute in der geschäftlichen Praxis gebräuchlich sind, ebenso wie alle Zeichen, die für viele Minderheitensprachen und veraltete Schriftsysteme benötigt werden, sowie eine große Anzahl mathematischer, wissenschaftlicher und technischer Symbole. Für praktisch jedes benötigte Zeichen ist die Wahrscheinlichkeit überragend, dass Unicode es enthält; und falls nicht, wird kein anderer Zeichenkodierungsstandard mit angemessen breiter Verwendung es ebenfalls haben. Diese Vollständigkeit ermöglicht es, Texte in einer beliebigen Sprache oder Sprachenkombination darzustellen, ohne angeben zu müssen, welcher Zeichenkodierungsstandard Ihre Anwendung oder Ihr Dokument verwendet – und ohne sich Sorgen machen zu müssen, diese Kodierung in der Mitte Ihres Dokuments zu ändern oder auf Zeichen verzichten zu müssen, weil Sie die Kodierung nicht ändern können.
Diese Vollständigkeit stellt selbstverständlich Implementierungsherausforderungen dar, die bewältigt werden müssen. Viele der weltweit verwendeten Schriftsysteme haben zum Beispiel komplizierte zweidimensionale Ordnungseigenschaften, die nicht gut auf eine lineare Abfolge numerischer Codes abbilden lassen, und viele können auf unterschiedliche Weise in „Zeichen" analysiert werden. Für verschiedene Schriften müssen möglicherweise unterschiedliche Kodierungsentscheidungen getroffen werden, doch Sie müssen sie immer noch in einem Dokument mischen und alles sinnvoll funktionieren können. Viele Zeichen haben ähnliche Erscheinungsbilder, was potenzielle Sicherheitsprobleme mit sich bringt, die gelöst werden müssen. Sie können auch nicht viel über ein Zeichen aus seiner Position im Code-Raum oder seiner Darstellung in den Code-Tabellen ableiten. Es gibt einfach zu viele Zeichen, und ständig kommen neue hinzu.
Aufgrund dieser und vieler anderer Probleme gehen der Unicode-Standard und die begleitenden Unicode Standard Annexes (kurz „UAXes") weit über jeden anderen Zeichenkodierungsstandard hinaus, indem sie im Detail beschreiben, wie diese 100.000 Zeichen-Zuweisungen zusammen verwendet werden, um echten Text darzustellen, und wie Software verschiedene Prozesse mit den Zeichen durchführen soll. Da Sie beispielsweise nicht auf die Eigenschaften eines Zeichens aus seiner Position im Kodierungsraum schließen können, enthält der Standard eine sehr umfangreiche Datenbank von Zeicheneigenschaften, die in großem Detail festlegen, etwa ob ein Zeichen ein Buchstabe oder eine Ziffer ist, welchem anderen Zeichen (falls vorhanden) es entspricht, und so weiter. Da es mehr Zeichencodes gibt, als in einem einzelnen 16-Bit-Wort dargestellt werden können, definiert der Standard verschiedene Darstellungsschemen (Unicode nennt sie „Encoding Forms"), die für unterschiedliche Situationen optimieren. Da Unicode ermöglicht, dass viele Zeichen auf mehr als eine Weise dargestellt werden, definiert der Standard Prozesse für den Umgang mit diesen Entsprechungen. Viele weitere Komplexitäten und Herausforderungen werden ebenfalls im Standard behandelt.
Jedes Textdokument besteht aus Inhalt und Layout. Das Ziel des Dokumentübersetzungsprozesses ist es, ein Dokument in der Zielsprache zu erstellen, das dem Quelldokument sowohl inhaltlich als auch layouttechnisch entspricht. Der Dokumentübersetzungsprozess umfasst daher zwei Hauptprozesse: Inhaltsübersetzung und Layout-Anpassung. Die Inhaltsübersetzung muss – und da dies für die meisten Menschen offensichtlich ist, geschieht dies in der Regel auch – von Muttersprachlern der Zielsprache durchgeführt werden.
Die Situation ist bei Layout-Anpassungen anders. Moderne Übersetzungswerkzeuge sind so leistungsfähig beim Extrahieren der übersetzungsfähigen Textteile aus Quelldokumenten und beim Schutz der nicht-übersetzungsfähigen Formatelemente, dass Layout-Anpassungen möglicherweise gar nicht erforderlich sind. Dies ist typischerweise bei der Übersetzung von Webformaten wie HTML oder XML der Fall. Da das Web-Layout eher flüssig ist und ein großer Teil der tatsächlichen Darstellung vom Webbrowser gesteuert wird, genügt es im Allgemeinen, den Quelltext einfach durch den Zieltext zu ersetzen. Soll jedoch ein übersetztes Druckdokument entstehen, muss der übersetzte Text häufig in ein vorgegebenes, festes Layout gezwungen werden. Aufgrund von Zeitdruck, Kostenüberlegungen oder anderen logistischen Faktoren sehen sich Desktop-Publisher oft mit der Aufgabe konfrontiert, ein Dokument zu überarbeiten, dessen Sprache sie nicht verstehen.
Obwohl man diese Situation als Verstoß gegen Best Practices bedauern mag, ist sie dennoch häufig genug, um als integraler Bestandteil des Übersetzungsprozesses behandelt zu werden. Dies erfordert Unterstützungsmaterialien, um Nicht-Lesern bei der Layout-Anpassung zu helfen.
In diesem Artikel befassen wir uns mit Japanisch. Die erste Überlegung eines Desktop-Publishers ist die Textrichtung. Wie viele Menschen wissen, werden japanische Bücher traditionell von rechts nach links in einem von oben nach unten verlaufenden Spaltenformat gelesen, aber wissenschaftliche und technische Publikationen, einschließlich Benutzerhandbücher für Hard- und Software, werden immer von links nach rechts im gleichen Format wie englischsprachige Dokumente geschrieben. Das Web scheint dieses Format noch weiter zu verbreiten. Wenn englischsprachige technische Dokumentation ins Japanische übersetzt wird, sollte der Quelltext einfach durch japanischen Text ersetzt werden, und das Dokumentlayout sollte unverändert bleiben.
Wenn der Platz in der Druckdokumentation begrenzt ist, ist es oft notwendig, die Zeilenumbrüche manuell anzupassen. Für Nicht-Leser wirkt japanischer Text auf den ersten Blick abschreckend, da Wörter oft nicht durch Leerzeichen getrennt sind. Geschriebenes Japanisch hat jedoch eine Reihe von Oberflächenzeichen, die nützliche Anhaltspunkte bieten.
Erstens verwenden Japaner Satzzeichen, um Sätze [Punkt], Nebensätze [Komma] und Einfügungen [Klammern] abzugrenzen. Wie im Englischen ist es daher immer sicher, einen Zeilenumbruch nach einem Punkt, einem Komma oder einer schließenden Klammer einzufügen oder vor einer öffnenden Klammer einzufügen. Wenn Fremdwörter in japanische Schrift transkribiert werden, werden Leerzeichen entweder mit dem Zeichen „'" oder einem Ein-Byte-Leerzeichen angezeigt. Ein Zeilenumbruch unmittelbar nach diesem Punktzeichen oder dem Leerzeichen ist akzeptabel.
Das japanische Schriftsystem verwendet drei verschiedene Zeichensätze, jeden für einen bestimmten Zweck. Chinesische Zeichen, sogenannte Kanji, werden verwendet, um Konzepte oder Wortbedeutungen auszudrücken: Sie sind logografische Symbole. Kanji tragen also die Hauptbedeutung japanischer Texte. Kanji sind relativ leicht zu erkennen, da die meisten dieser Symbole ziemlich kompliziert aussehen. Da Japanisch viele hundert Kanji verwendet, ist eine vollständige Auflistung unpraktisch.
Hiragana sind Symbole japanischen Ursprungs, die ein Silbenalphabet bilden. Das bedeutet, dass wie englische Buchstaben jedes Symbol für einen Sprachlaut steht, nicht für eine Wortbedeutung. Während englische Buchstaben jedoch im Allgemeinen einen einzelnen Laut darstellen, stellen Hiragana eine ganze Silbe dar.
Hiragana werden verwendet, um grammatikalische Informationen darzustellen – das heißt, sie entsprechen grob englischen Präpositionen, Konjunktionen und ähnlichen Funktionswörtern. Hiragana werden im Allgemeinen am Ende eines Wortes angehängt – das heißt, Hiragana bilden typischerweise eine Einheit mit vorangehenden Kanji.
Katakana werden zur Transkription von Fremdwörtern und Namen verwendet. In einigen Fällen, wie bei Produktnamen oder vollständigen Namen, verwendet Japanisch auch lateinische Schrift, und arabische Ziffern werden im Japanischen wie im Englischen häufig verwendet.
Da diese leicht unterscheidbaren Zeichensätze für so unterschiedliche Zwecke verwendet werden, ist es möglich, einige nützliche Verallgemeinerungen für grundlegende Layout-Anpassungen zu treffen.