Wikipedia:UTF-8-Probleme
aus Wikipedia, der freien Enzyklopädie
Abkürzung: WP:UTF-8 Wikipedia verwendet die UTF-8-Zeichenkodierung, die es erlaubt Sonderzeichen abzubilden, die es in traditionelleren Zeichensätzen wie ASCII nicht gibt. Da Software mit UTF-8- bzw. Unicode-Unterstützung den Markt noch nicht 100%ig durchdrungen hat, kann es bei der Darstellung von Sonderzeichen in älterer Software zu Fehlern kommen.
Diese Seite soll einen Überblick über die häufigsten Probleme und ihre Lösungen geben.
[Bearbeiten] Windows
[Bearbeiten] Warum werden statt Sonderzeichen Rechtecke / Fragezeichen angezeigt?

Problem: Einige Sprachen können nicht dargestellt werden (z. B. Chinesisch, Arabisch). Stattdessen zeigt der Browser kleine Rechtecke oder Fragezeichen an, etwa □□ oder ?? statt 北京. Hier fehlen Schriftarten, die die entsprechende Sprache anzeigen können.
Lösung: Bei der Windows-Installation werden standardmäßig nicht alle verfügbaren Schriften (Fonts) installiert, um Speicherplatz zu sparen. Die meisten benötigten Schriften lassen sich aber nachträglich installieren. Allerdings fehlen Windows Schriften für einige Sprachen, etwa für Malayalam. Siehe z. B.: ml:സഹായം:To Read in Malayalam.
Hilfreich ist es, die Schrift Arial Unicode MS zu installieren; diese ist etwa bei Microsoft Office 2000, Microsoft FrontPage 2000 und neueren Versionen enthalten. Der Name ist ARIALUNI.TTF, die Dateigröße 22 MB. Wer keines dieser Produkte besitzt, kann auch (teilweise kostenpflichtige) Schriftarten herunterladen: MS Mincho, Gentium (Download), Bitstream Cyberbit für Windows (Download) (ca. 6 MB), Linux Libertine oder die DejaVu-Schriften (dejavu.sourceforge.net).
Zwei recht komplette Unicode-Fonts sind Titus Cyberbit Basic und Code2000. Weitere IPA-fähige Schriftarten im Web: www.phon.ucl.ac.uk, mehr dazu auf Wikipedia:Lautschrift.
Hier die Anleitung, wie man in verschiedenen Versionen von Windows Schriften nachinstalliert:
- Unter Windows 98:
- Am besten eine der obigen Schriftarten herunterladen und installieren, bzw. die TTF-Datei in den Ordner Fonts (in der Regel
C:\Windows\Fonts) hineinkopieren. - Unter "Start -> Einstellungen -> Systemsteuerung" findet man das Symbol "Software". Oben auf "Windows Setup" klicken und die „Sprachunterstützung“ mit „Details...“ erweitern.
- Office-CD einlegen und bei „Benutzerdefinierter Installation“ nur die entsprechenden Schriftarten auswählen.
- Windows-Internetupdate starten und die Sprachunterstützungen und Schriften in der Rubrik nicht dringender Updates anwählen und installieren. (nur bei Verwendung des Internet Explorers)
- Am besten eine der obigen Schriftarten herunterladen und installieren, bzw. die TTF-Datei in den Ordner Fonts (in der Regel
- Unter Windows 2000:
- In der Systemsteuerung findet sich ein Symbol Ländereinstellungen. Im Feld Allgemein gibt es eine Liste Spracheinstellungen für das System. Hier müssen bei allen Sprachfamilien Häkchen gemacht werden, die angezeigt werden sollen.
- Unter Windows XP (ab Servicepack 2):
- In der Systemsteuerung findet sich ein Symbol Datums-, Zeit, Sprach und Regionaleinstellungen. Im Feld Regions- und Sprachoptionen das Feld Sprachen wählen. Bei Dateien für ostasiatische Sprachen installieren und/oder bei Dateien für Sprachen mit komplexen Schriftzeichen und Zeichen mit Rechts-nach-Links-Schreibung installieren ein Häkchen setzen.
[Bearbeiten] Was muss ich beachten, wenn ich die benötigten Schriften nicht installiere?
„Da von dem Darstellungsproblem ja nur exotische Sonderzeichen betroffen sind, die ich in der Regel doch nicht verstehe, habe ich mir bisher nicht die Mühe gemacht, zusätzliche Zeichen zu installieren. Mit welchen Komplikationen muss ich rechnen?“
- Beim Lesen in der Wikipedia ist nichts weiter zu beachten. Für nicht installierte Zeichen werden dann einfach die oben erwähnten Platzhalter (□, ¤ oder ?) angezeigt.
- Beim Bearbeiten von Artikeln dürfen diese Platzhalter nicht verändert werden, damit die zugehörigen Sonderzeichen bei den anderen Benutzern weiterhin angezeigt werden können. Auch wenn der eigene Browser diese Zeichen nicht darstellen kann, so weiß er doch, welche Zeichen sich dahinter verbergen. (D. h. Auch wenn z. B. statt des Katakana-Zeichens Wi (ヰ) ein Platzhalter wie □ oder ? erscheint, so behandelt der Browser doch wie das Katakana-Zeichen Wi, und Benutzer, die japanische Zeichensätze installiert haben, bekommen es auch nach der Bearbeitung weiterhin korrekt angezeigt. Alternativ kannst du zumindest einen Fallback Font installieren, der das Vorhandensein Dir unbekannter Zeichen deutlich macht, so dass ihnen nicht so leicht Schaden zugefügt wird.
- Hier müssen dann noch die erkannten Betriebssystem-Browser-Kombinationen behandelt werden, die beim Speichern von Texten mit nicht installierten Zeichen Probleme bereiten. Also die Erklärungen, die jetzt unter #Internet Explorer, #Lynx und #Linux allgemein folgen würden hier rein passen,
[Bearbeiten] Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?
Problem: Statt Sonderzeichen werden unlesbare Zeichenketten angezeigt, etwa ð£ð¥Ðüð║ð▓ð░ statt Москва oder ├ñ statt ä. Dabei handelt es sich um Unicode-Zeichen, die z. B. vom Browser oder im Textmodus unter DOS nicht als solche interpretiert werden, sondern als Windows Codepage 850 oder Codepage 437. Die Sonderzeichen werden zwar beim Speichern nicht zerstört, jedoch ist es schwierig, den Text zu lesen und zu bearbeiten.
Lösung: Keine. Beim Bearbeiten können Sonderzeichen notfalls als HTML-Entitäten geschrieben werden, etwa ä für ein ä, Ö für ein Ö oder ß für ein ß. Bitte auf keinen Fall den vorhandenen „Zeichensalat“ ändern!
[Bearbeiten] Warum werden bei Unicode-Charakteren über U+10000 trotz installierter Schriften zwei Rechtecke angezeigt?
In diesem Falle müssen Surrogates aktiviert werden, die nur von Windows 2000, XP und Vista unterstützt werden:
- Über Start, Ausführen, und Eintippen von "regedit" den Registrierungseditor starten.
- Sich durchhangeln zu HKEY_LOCAL_MACHINE\Software\Microsoft\Windows NT\CurrentVersion\LanguagePack
- In die rechte Fensterhälfte klicken und über Neu -> DWORD-Wert einen neuen Eintrag anlegen und SURROGATE benennen (Groß/Kleinschreibung beachten!).
- Dem neuen Eintrag den Wert 2 zuweisen.
Nach einem anschließenden Neustart erscheinen nun auch Unicode-Charactere über U+10000 korrekt auf dem Bildschirm.
[Bearbeiten] Was tun bei weiteren Problemen mit der Anzeige von Schriftsätzen?
Wenn dies alles nicht hilft, so ist bei einigen Schriften eine Installation der jeweiligen Spezialschriftart nützlich.
[Bearbeiten] Linux
[Bearbeiten] Warum werden manche Zeichen nicht angezeigt?
Wenn Zeichen nicht angezeigt werden, sondern stattdessen z. B. ? oder ? angezeigt wird, liegt es wahrscheinlich daran, dass der Browser keine passende Schrifttype für das Zeichen findet. Es gibt zahlreiche freie Font-Pakete, die zusammen viele Schriften umfassen.
Sehen Sie auch mal oben bei Windows allgemein nach. Vielleicht finden Sie dort Links, die Ihnen helfen.
Allerdings müssen Sie die Fonts (Schriftarten) nur installieren, wenn sie die entsprechenden Schriften auch interessieren (dann meist einfach in den Ordner /usr/X11R6/lib/X11/fonts/truetype kopieren). Sie können aber auch ohne die entsprechende Schriftart Artikel der Wikipedia bearbeiten.
Unter Debian GNU/Linux kann man das Paket ttf-malayalam-fonts für ml:Main Page und ttf-kochi-mincho bzw. ttf-sazanami-mincho für ja:Main Page benutzen. Die entsprechenden -gothic-Pakete sollten auch funktionieren. Für th:Main Page eigent sich xfonts-thai. ttf-kacst ermöglicht das korrekte Anzeigen von ar:Main Page.
[Bearbeiten] Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?
Problem: Wenn das Terminal, in dem der Textbrowser (z. B. Lynx, w3m) läuft, eine andere Zeichenkodierung verwendet, werden statt Sonderzeichen unlesbare Zeichenketten angezeigt, etwa Ð?оÑ?ква statt Москва oder ä statt ä. Dabei handelt es sich um UTF-8-kodierte Zeichen, die von der Konsole nicht als solche interpretiert werden, sondern als ISO 8859-1. Die Sonderzeichen werden zwar beim Speichern nicht zerstört, jedoch ist es schwierig, den Text zu lesen und zu bearbeiten.
Lösung:
- Auf der Linux-Konsole: die Konsole enthält das Skript unicode_start. Es schaltet die Konsole in den UTF-8-Modus. Damit lässt sich dann schon mit Lynx die Wikipedia bearbeiten, evtl. werden aber einige Zeichen nicht angezeigt, dazu kann man die entsprechenden Konsolen-Schriften installieren. (Evtl. bietet sich auch die Verwendung von dynafont an.)[1]
- Im Terminal-Fenster: Manche Terminals (z. B. das gnome-terminal) lassen sich mit echo -e '\e%G' in den UTF-8-Modus schalten; wenn man eine UTF-8-Locale verwendet, ist das im Allgemeinen nicht nötig. Xterm sollte mit dem Skript uxterm aufgerufen werden.[2]
[Bearbeiten] Mac OS
[Bearbeiten] Warum zerstört der IE unter Mac OS beim Abspeichern Sonderzeichen?
Problem: Beim Speichern von Artikeln werden einige Sonderzeichen, etwa japanische und griechische, durch Fragezeichen ersetzt und die Seite somit zerstört.
Lösung: Keine. Der Internet Explorer für Mac OS wird von Microsoft nicht weiterentwickelt. Mit dem Internet Explorer unter Mac OS kann die Wikipedia nicht bearbeitet werden, bitte erst gar nicht versuchen!
Stattdessen sollte ein funktionierender Browser verwendet werden, etwa Safari, der Bestandteil von Mac OS X 10.3 ist und für Mac OS X 10.2.8 (aber nicht für ältere X-Versionen oder Mac OS 9.x bzw. früher) kostenlos von Apple heruntergeladen werden kann oder Mozilla Firefox, der hier für Mac OS X kostenlos heruntergeladen werden kann.
Eine Liste von 100 Browsern für alle Mac Betriebssysteme.
Für Mac OS 7.6 und neuer empfiehlt sich iCab. Eine (nicht-offizielle) Mozilla-Version für Mac OS 8.6 und 9 gibt es hier.
[Bearbeiten] Mein IE zeigt alle Sonderzeichen falsch an
Problem: Wenn Sie den Downloadmanager Reget installiert haben, zerstört dessen Integration die automatische Erkennung des Zeichensatzes. Dadurch werden die UTF-8-Seiten als latin1 angezeigt und das Ergebnis ist Buchstabensalat.
Lösung: Die einzige Möglichkeit, diesen Fehler zu beheben, ist, die Integration von Reget zu deaktivieren. Der Fehler ist den Herstellern von Reget bekannt, die Ursache scheint aber beim IE zu liegen, nicht bei Reget – somit ist keine Problembehebung zu erwarten.
[Bearbeiten] OS-unabhängig
[Bearbeiten] Lynx
Warum werden Sonderzeichen in Lynx transkribiert (in lateinische Buchstaben umgewandelt)?
Problem: Sonderzeichen werden automatisch in lateinische Umschrift gewandelt. So wird etwa aus dem kyrillischen Text Архангельск automatisch Arhangel'sk. Beim Abspeichern wird diese Umwandlung nicht rückgängig gemacht, so dass die kyrillischen Zeichen verloren gehen und die Seite damit zerstört wird.
Lösung: In den Optionen (über die Taste O erreichbar) findet sich eine Option Display character set. Hier muss UNICODE (UTF-8) eingestellt werden. Danach bleiben Sonderzeichen beim Speichern erhalten. Dies muss unbedingt gemacht werden, um die Wikipedia mit Lynx zu bearbeiten! Beim Ändern der Optionen ist darauf zu achten, dass die Checkbox Optionen permanent speichern (ganz oben auf der Optionen-Seite) aktiviert sein muss, damit die Einstellungen auch beim nächsten Programmstart erhalten bleiben.
Außerdem muss die Konsole in der Lage sein, Unicode-Zeichen anzuzeigen. Siehe hierzu Linux allgemein: Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?
[Bearbeiten] W3M
Warum werden Sonderzeichen im w3m falsch angezeigt?
Problem: Einige Akzente werden falsch angezeigt, z. B. Espan~ol statt Español. Andere Sonderzeichen (z. B. chinesisch) werden durch Fragezeichen ersetzt. Beim Speichern werden diese Sonderzeichen komplett gelöscht und die Seite somit zerstört.
Lösung: In den Optionen (über die Taste o erreichbar) muss in der Kategorie Charset Settings die Option Display Charset auf Unicode (UTF-8) gestellt werden. Dies muss unbedingt gemacht werden, um die Wikipedia mit w3m zu bearbeiten!
Außerdem muss die Konsole in der Lage sein, Unicode-Zeichen anzuzeigen. Siehe hierzu Linux allgemein: Warum zeigt mein Textbrowser statt Sonderzeichen Zeichensalat an?
[Bearbeiten] Netscape Navigator 4
Kann ich Netscape Navigator 4.x verwenden, um die Wikipedia zu bearbeiten?
Netscape Navigator in der Version 4.x darf auf keinen Fall verwendet werden, um Wikipedia-Seiten zu bearbeiten, da es Sonderzeichen zerstört. Aber auch zum Lesen ist der Navigator 4.x praktisch nicht brauchbar, da er viele in der Wikipedia verwendete Techniken wie CSS nicht ausreichend unterstützt.
Es wird dringend empfohlen, auf einen modernen Browser umzusteigen, zum Beispiel auf Mozilla Firefox, der hier kostenlos heruntergeladen werden kann, oder auf die umfassendere, aber weniger ressourcenschonende Internetsuite SeaMonkey, welche hier in der jeweils aktuellen Version kostenlos zur Verfügung steht.
[Bearbeiten] Privoxy
Warum zerstört Privoxy beim Speichern Umlaute und andere Sonderzeichen?
Im Werbeblocker Privoxy gibt es in der Version 3.0.2 einen Programmfehler im so genannten Demoronizer, durch den Umlaute und andere Nicht-ASCII-Zeichen beim Bearbeiten zerstört werden [3]. In der Version 3.0.3 wurde dieser korrigiert. Es dürfen auf keinen Fall Wikipedia-Seiten bearbeitet werden, bis der Demoronizer abgeschaltet oder Privoxy aktualisiert wurde!

