Hilfe:UTF-8-Probleme

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Wikipedia:UTF-8-Probleme)
Wechseln zu: Navigation, Suche
Hilfe > Technik > UTF-8-Probleme

Wikipedia verwendet die UTF-8-Zeichenkodierung, die es erlaubt, Sonderzeichen abzubilden, die es in traditionelleren Zeichensätzen wie ASCII nicht gibt.

Da Software mit UTF-8- bzw. Unicode-Unterstützung den Markt zwar fast 100-prozentig durchdrungen hat, aber nicht jedes Schriftzeichen auf jedem Rechner installiert ist, kann es bei der Darstellung von Schriftzeichen zu Fehlern kommen. Allerdings ist das 2014 kaum noch zu erwarten.

Diese Seite soll einen Überblick über die häufigsten Probleme und ihre Lösungen geben.

Webfonts[Bearbeiten]

2013 wurde damit begonnen, Wikipedia-Seiten mit Webfonts zu unterstützen („ULS“).

Windows[Bearbeiten]

Warum werden statt Sonderzeichen Rechtecke / Fragezeichen angezeigt?[Bearbeiten]

Problem: Einige Sprachen können nicht dargestellt werden (z. B. Chinesisch, Arabisch). Stattdessen zeigt der Browser kleine Rechtecke oder Fragezeichen an, etwa □□ oder ?? statt 北京. Hier fehlen Schriftarten, die die entsprechende Sprache anzeigen können.

Lösung: Bei der Windows-Installation werden standardmäßig nicht alle verfügbaren Schriften (Fonts) installiert, um Speicherplatz zu sparen. Die meisten benötigten Schriften lassen sich aber nachträglich installieren. Allerdings fehlen Windows-Schriften für einige Sprachen, etwa für Malayalam. Siehe z. B.: ml:സഹായം:To Read in Malayalam.

Hilfreich ist es, die Schrift Arial Unicode MS zu installieren; diese ist etwa bei Microsoft Office 2000, Microsoft FrontPage 2000 und neueren Versionen enthalten. Der Name ist ARIALUNI.TTF, die Dateigröße 22 MB. Wer keines dieser Produkte besitzt, kann auch (teilweise kostenpflichtige) Fonts herunterladen: MS Mincho, Gentium (Download), Bitstream Cyberbit für Windows (Download) (ca. 6 MB), Linux Libertine oder die DejaVu-Schriften (dejavu-fonts.org). Welche Schriftarten ein bestimmtes Zeichen unterstützen, erfährt man auf fileformat.info.

Zwei recht komplette Unicode-Fonts sind Titus Cyberbit Basic und Code2000. Weitere IPA-fähige Schriftarten im Web: phon.ucl.ac.uk, mehr dazu auf Wikipedia:Lautschrift.

Hier die Anleitung, wie man in verschiedenen Versionen von Windows Schriften nachinstalliert:

  • Unter Windows XP (ab Service Pack 2):
    In der Systemsteuerung findet sich ein Symbol Datums-, Zeit, Sprach und Regionaleinstellungen. Im Feld Regions- und Sprachoptionen das Feld Sprachen wählen. Bei Dateien für ostasiatische Sprachen installieren und/oder bei Dateien für Sprachen mit komplexen Schriftzeichen und Zeichen mit Rechts-nach-Links-Schreibung installieren ein Häkchen setzen.
  • Unter Windows 2000:
    In der Systemsteuerung findet sich ein Symbol Ländereinstellungen. Im Feld Allgemein gibt es eine Liste Spracheinstellungen für das System. Hier müssen bei allen Sprachfamilien Häkchen gemacht werden, die angezeigt werden sollen.
  • Unter Windows 98:
    1. Am besten eine der obigen Schriftarten herunterladen und installieren, bzw. die TTF-Datei in den Ordner Fonts (in der Regel C:\Windows\Fonts) hineinkopieren.
    2. Unter „Start → Einstellungen → Systemsteuerung“ findet man das Symbol „Software“. Oben auf „Windows Setup“ klicken und die „Sprachunterstützung“ mit „Details…“ erweitern.
    3. Office-CD einlegen und bei „Benutzerdefinierter Installation“ nur die entsprechenden Schriftarten auswählen.
    4. Windows-Internetupdate starten und die Sprachunterstützungen und Schriften in der Rubrik nicht dringender Updates anwählen und installieren. (nur bei Verwendung des Internet Explorers)

Was muss ich beachten, wenn ich die benötigten Schriften nicht installiere?[Bearbeiten]

„Da von dem Darstellungsproblem ja nur exotische Sonderzeichen betroffen sind, die ich in der Regel doch nicht verstehe, habe ich mir bisher nicht die Mühe gemacht, Schriftarten für die Darstellung zusätzlicher Zeichen zu installieren. Mit welchen Komplikationen muss ich rechnen?“

  • Beim Lesen in der Wikipedia ist nichts weiter zu beachten. Für nicht installierte Zeichen werden dann einfach die oben erwähnten Platzhalter (□, ¤ oder ?) angezeigt. Firefox zeigt innerhalb des Rechtecks den Hexadezimalcode des Zeichens an, also meist vier Buchstaben und Ziffern (selten fünf) in Mini-mini-Schrift.
  • Beim Bearbeiten von Artikeln dürfen diese Platzhalter nicht verändert werden, damit die zugehörigen Sonderzeichen bei den anderen Benutzern weiterhin angezeigt werden können. Auch wenn der eigene Browser diese Zeichen nicht darstellen kann, so weiß er doch, welche Zeichen sich dahinter verbergen. Auch wenn z. B. statt des Katakana-Zeichens Wi (ヰ) ein Platzhalter wie □ oder ? erscheint, so behandelt der Browser es doch wie das Katakana-Zeichen Wi, und Benutzer, die japanische Zeichensätze installiert haben, bekommen es auch nach der Bearbeitung weiterhin korrekt angezeigt. Alternativ kannst du zumindest einen Fallback Font installieren, der das Vorhandensein Dir unbekannter Zeichen deutlich macht, so dass ihnen nicht so leicht Schaden zugefügt wird.
Hier müssen dann noch die erkannten Betriebssystem-Browser-Kombinationen behandelt werden, die beim Speichern von Texten mit nicht installierten Zeichen Probleme bereiten. Also die Erklärungen, die jetzt unter #Internet Explorer, #Lynx und #Linux allgemein folgen würden hier rein passen.

Schriftzeichen-Datenbank:

Einige Browser (etwa Firefox) halten eine Datenbank, in der sie die Codes aller auf dem Rechner installierten Fonts protokollieren. Wenn in dem aktuell zur Anzeige benutzten Font ein Code nicht mit der Grafik belegt ist, zeigen sie mittels dieser Datenbank ersatzweise aus dem zunächst gefundenen Font eine Grafik an. Diese mag in Stil und Größe nicht zur Umgebung passen, ist aber besser als das Rechteck mit dem Code. Microsoft IE macht dies nicht.

Seit Mitte 2013 wird auf Wiki-Seiten mit JavaScript ULS (Universal Language Selector) aktiv; eine Wiki-Eigenentwicklung, die mittels Webfonts für bestimmte Schriftsysteme darstellt. Das gilt aber nur für asiatische Schriften; und wird mutmaßlich auch nur dann ausgelöst, wenn ein Textzitat oder Interlanguage ausdrücklich deklariert ist in beispielsweise einer der folgenden Sprachen: Akkadisch, Arabisch, Assamesisch, Bengalisch, Burmesisch, Devanagari, Gujarati, Hebräisch, Javanisch, Kannada, Khmer, Laotisch, Tamilisch.

Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?[Bearbeiten]

Problem: Statt Sonderzeichen werden unlesbare Zeichenketten angezeigt, etwa ð£ð¥Ðüð║ð▓ð░ statt Москва oder ├ñ statt ä. Dabei handelt es sich um Unicode-Zeichen, die z. B. vom Browser oder im Textmodus unter DOS nicht als solche interpretiert werden, sondern als Windows Codepage 850 oder Codepage 437. Die Sonderzeichen werden zwar beim Speichern nicht zerstört, jedoch ist es schwierig, den Text zu lesen und zu bearbeiten.

Lösung:
Internet Explorer
Obere Menüleiste: AnsichtCodierung: Unicode (UTF-8) auswählen
Firefox
Obere Menüleiste: AnsichtZeichencodierung: Unicode (UTF-8) auswählen

Hilft das nicht, gibt es womöglich keine Standardlösung. Beim Bearbeiten können Sonderzeichen notfalls als HTML-Entitäten geschrieben werden, etwa ä für ein ä, Ö für ein Ö oder ß für ein ß. Bitte auf keinen Fall den vorhandenen „Zeichensalat“ ändern!

Warum werden bei Unicode-Charakteren über U+10000 trotz installierter Schriften zwei Rechtecke angezeigt?[Bearbeiten]

In diesem Falle müssen Surrogates aktiviert werden, die nur von Windows 2000, XP, Vista und Windows 7 unterstützt werden:

  1. Über Start, Ausführen, und Eintippen von regedit den Registrierungseditor starten.
  2. Sich durchhangeln zu HKEY_LOCAL_MACHINE\Software\Microsoft\Windows NT\CurrentVersion\LanguagePack
  3. In die rechte Fensterhälfte klicken und über Neu → DWORD-Wert einen neuen Eintrag anlegen und SURROGATE benennen (Groß/Kleinschreibung beachten!).
  4. Dem neuen Eintrag den Wert 2 zuweisen.

Nach einem anschließenden Neustart erscheinen nun auch Unicode-Charactere über U+10000 korrekt auf dem Bildschirm.

Was tun bei weiteren Problemen mit der Anzeige von Schriftsätzen?[Bearbeiten]

Wenn dies alles nicht hilft, so ist bei einigen Schriften eine Installation der jeweiligen Spezialschriftart nützlich.

Linux[Bearbeiten]

Warum werden manche Zeichen nicht angezeigt?[Bearbeiten]

Wenn Zeichen nicht angezeigt werden, sondern stattdessen Ersetzungszeichen wie z. B. □ oder? angezeigt wird, liegt es wahrscheinlich daran, dass der Browser keine passende Schrifttype für das Zeichen findet. Es gibt zahlreiche freie Font-Pakete, die zusammen viele Schriften umfassen.

Sieh auch mal oben bei Windows allgemein nach. Vielleicht findest du dort Links, die dir helfen.

Allerdings musst du die Fonts (Schriftarten) nur installieren, wenn sie die entsprechenden Schriften auch interessieren (dann meist einfach in den Ordner /usr/X11R6/lib/X11/fonts/truetype kopieren). Du kannst aber auch ohne die entsprechende Schriftart Artikel der Wikipedia bearbeiten.

Unter Debian GNU/Linux kann man das Paket ttf-malayalam-fonts für ml:Main Page und ttf-kochi-mincho bzw. ttf-sazanami-mincho für ja:Main Page benutzen. Die entsprechenden -gothic-Pakete sollten auch funktionieren. Für th:Main Page eigent sich xfonts-thai. ttf-kacst ermöglicht das korrekte Anzeigen von ar:Main Page.

Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?[Bearbeiten]

Problem: Wenn das Terminal, in dem der Textbrowser (z. B. Lynx, w3m) läuft, eine andere Zeichenkodierung verwendet, werden statt Sonderzeichen unlesbare Zeichenketten angezeigt, etwa Ð?оÑ?ква statt Москва oder ä statt ä. Dabei handelt es sich um UTF-8-kodierte Zeichen, die von der Konsole nicht als solche interpretiert werden, sondern als ISO 8859-1. Die Sonderzeichen werden zwar beim Speichern nicht zerstört, jedoch ist es schwierig, den Text zu lesen und zu bearbeiten.

Lösung:

  • Auf der Linux-Konsole: die Konsole enthält das Skript unicode_start. Es schaltet die Konsole in den UTF-8-Modus. Damit lässt sich dann schon mit Lynx die Wikipedia bearbeiten, evtl. werden aber einige Zeichen nicht angezeigt, dazu kann man die entsprechenden Konsolen-Schriften installieren. (Evtl. bietet sich auch die Verwendung von dynafont an.)melkor.dnp.fmph.uniba.sk
  • Im Terminal-Fenster: Manche Terminals (z. B. das gnome-terminal) lassen sich mit echo -e '\e%G' in den UTF-8-Modus schalten; wenn man eine UTF-8-Locale verwendet, ist das im Allgemeinen nicht nötig. Xterm sollte mit dem Skript uxterm aufgerufen werden.melkor.dnp.fmph.uniba.sk

Mac OS[Bearbeiten]

Warum zerstört der IE unter Mac OS beim Abspeichern Sonderzeichen?[Bearbeiten]

Problem: Beim Speichern von Artikeln werden einige Sonderzeichen, etwa japanische und griechische, durch Fragezeichen ersetzt und die Seite somit zerstört.

Lösung: Keine. Der Internet Explorer für Mac OS wurde von Microsoft nach 2003 nicht mehr weiterentwickelt. Mit dem Internet Explorer unter Mac OS kann die Wikipedia nicht bearbeitet werden, bitte erst gar nicht versuchen!

Stattdessen sollte ein funktionierender Browser verwendet werden, etwa Safari, der Bestandteil von Mac OS X 10.3 ist und für Mac OS X 10.2.8 (aber nicht für ältere X-Versionen oder Mac OS 9.x bzw. früher) kostenlos von Apple heruntergeladen werden kann oder Mozilla Firefox, der hier für Mac OS X kostenlos heruntergeladen werden kann.

Eine Liste von 100 Browsern für alle Mac Betriebssysteme.

Für Mac OS 7.6 und neuer empfiehlt sich iCab. Eine (nicht-offizielle) Mozilla-Version für Mac OS 8.6 und 9 gibt es hier.

Mein IE zeigt alle Sonderzeichen falsch an[Bearbeiten]

Problem: Wenn du den Downloadmanager Reget installiert hast, zerstört dessen Integration die automatische Erkennung des Zeichensatzes. Dadurch werden die UTF-8-Seiten als latin1 angezeigt und das Ergebnis ist Buchstabensalat.

Lösung: Die einzige Möglichkeit, diesen Fehler zu beheben, ist, die Integration von Reget zu deaktivieren. Der Fehler ist den Herstellern von Reget bekannt, die Ursache scheint aber beim IE zu liegen, nicht bei Reget – somit ist keine Problembehebung zu erwarten.

OS-unabhängig[Bearbeiten]

Lynx[Bearbeiten]

Warum werden Sonderzeichen in Lynx transkribiert (in lateinische Buchstaben umgewandelt)?

Problem: Sonderzeichen werden automatisch in lateinische Umschrift gewandelt. So wird etwa aus dem kyrillischen Text Архангельск automatisch Arhangel'sk. Beim Abspeichern wird diese Umwandlung nicht rückgängig gemacht, so dass die kyrillischen Zeichen verloren gehen und die Seite damit zerstört wird.

Lösung: In den Optionen (über die Taste O erreichbar) findet sich eine Option Display character set. Hier muss UNICODE (UTF-8) eingestellt werden. Danach bleiben Sonderzeichen beim Speichern erhalten. Dies muss unbedingt gemacht werden, um die Wikipedia mit Lynx zu bearbeiten! Beim Ändern der Optionen ist darauf zu achten, dass die Checkbox Optionen permanent speichern (ganz oben auf der Optionen-Seite) aktiviert sein muss, damit die Einstellungen auch beim nächsten Programmstart erhalten bleiben. Werden Optionen dennoch nicht permanent gespeichert, kann das an der Schreibberechtigung von lynx.cfg liegen, deren Speicherort über die URL lynxcfg: angegeben wird.

Außerdem muss die Konsole in der Lage sein, Unicode-Zeichen anzuzeigen. Siehe hierzu Linux allgemein: Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?

W3M[Bearbeiten]

Warum werden Sonderzeichen im w3m falsch angezeigt?

Problem: Einige Akzente werden falsch angezeigt, z. B. Espan~ol statt Español. Andere Sonderzeichen (z. B. chinesisch) werden durch Fragezeichen ersetzt. Beim Speichern werden diese Sonderzeichen komplett gelöscht und die Seite somit zerstört.

Lösung: In den Optionen (über die Taste o erreichbar) muss in der Kategorie Charset Settings die Option Display Charset auf Unicode (UTF-8) gestellt werden. Dies muss unbedingt gemacht werden, um die Wikipedia mit w3m zu bearbeiten!

Außerdem muss die Konsole in der Lage sein, Unicode-Zeichen anzuzeigen.

Netscape Navigator 4[Bearbeiten]

Kann ich Netscape Navigator 4.x verwenden, um die Wikipedia zu bearbeiten?

Netscape Navigator in der Version 4.x darf auf keinen Fall verwendet werden, um Wikipedia-Seiten zu bearbeiten, da es Sonderzeichen zerstört. Aber auch zum Lesen ist der Navigator 4.x praktisch nicht brauchbar, da er viele in der Wikipedia verwendete Techniken wie CSS nicht ausreichend unterstützt.

Es wird dringend empfohlen, auf einen modernen Browser umzusteigen, zum Beispiel auf Mozilla Firefox, der auf mozilla.com kostenlos heruntergeladen werden kann, oder auf die umfassendere Internetsuite SeaMonkey, welche auf seamonkey.at in der jeweils aktuellen Version kostenlos zur Verfügung steht.

Privoxy[Bearbeiten]

Warum zerstört Privoxy beim Speichern Umlaute und andere Sonderzeichen?

Im Werbeblocker Privoxy gibt es in der Version 3.0.2 einen Programmfehler im so genannten Demoronizer, durch den Umlaute und andere Nicht-ASCII-Zeichen beim Bearbeiten zerstört werden: privoxy.org. In der Version 3.0.3 wurde dieser korrigiert. Es dürfen auf keinen Fall Wikipedia-Seiten bearbeitet werden, bis der Demoronizer abgeschaltet oder Privoxy aktualisiert wurde!

Weitere Informationen[Bearbeiten]