HTML-Entität

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 8. August 2023 um 21:32 Uhr durch Lantani (Diskussion | Beiträge) (Beispiele: Missglückter Satz entfernt. Der beabsichtigte Inhalt steht richtig im Text („[es] gilt immer nur der Codepunkt in Unicode“).).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Eine HTML-Entität ist eine Entität (also eine eindeutig abgrenzbare Zeichenfolge mit spezieller Bedeutung), die in HTML verwendet wird (also der textbasierten Auszeichnungssprache, in der beispielsweise Webseiten formuliert werden können). Häufig verwendet werden dort numerische Entitäten und benannte Entitäten, um Schriftzeichen zu bezeichnen (speziell wenn sie in der für die Webseite gewählten Codierung oder für die zur Erstellung verwendeten Eingabemethode nicht zur Verfügung stehen.) Auch bestimmte Steuerzeichen können so im Text sichtbar dargestellt werden.

Numerische Entitäten

[Bearbeiten | Quelltext bearbeiten]

Eine numerische Entität bezeichnet ein Zeichen durch seinen Unicode-Codepunkt. Hierfür sind zwei Formate definiert:

  • &#nnn;nnn repräsentiert hier den Codepunkt als Dezimalzahl (ohne führende Nullen).
  • &#xhhhh;hhhh repräsentiert hier den Codepunkt als Hexadezimalzahl, also so, wie der Unicode-Codepunkt üblicherweise angegeben wird (ohne das einleitende „U+“). Führende Nullen können angegeben werden und sind bei weniger als vierstelligen Werten üblich, um den Wert gleichlautend zur üblichen vierstelligen Unicode-Codepunkt-Angabe anzugeben.

Unabhängig davon, in welchem Code („charset“) das HTML-Dokument vorliegt, gilt immer nur der Codepunkt in Unicode. Damit sind numerische Entitäten im Bereich € bis Ÿ oder hexadezimal € bis Ÿ falsch, wenn damit Zeichen dargestellt werden sollen, die im Code Windows-1252 Codepunkte in diesem Bereich haben. Dazu gehören u. a. die Zeichen € und ‰, die Buchstaben Œ, œ, Š, š, Ÿ, Ž und ž sowie verschiedene Anführungszeichen und Gedankenstriche. Zeichen mit Unicode-Codepunkten von U+0080 bis U+009F kommen in Texten normalerweise nicht vor.

Benannte Entitäten

[Bearbeiten | Quelltext bearbeiten]

Eine benannte Entität hat das Format &aaa;aaa repräsentiert hier einen aus Groß- und Kleinbuchstaben des lateinischen Grundalphabets und Ziffern bestehenden Namen, der das zu bezeichnende Zeichen eindeutig identifiziert. Groß- und Kleinschreibung ist exakt zu verwenden und kann bedeutungsunterscheidend sein. Die Namen werden vom W3C (World Wide Web Consortium) festgelegt.[1][2]

Zeichen Unicode Bezeichnung Dezimal-
code
Numerische Entität Benannte
Entität
Position Name dezimal hexadez.
· U+00B7 middle dot Halbhoch­punkt 0183 · · ·
ſ U+017F latin small letter long s langes s 0383 ſ ſ (keine)
U+2030 per mille sign Promille­zeichen 8240 ‰ ‰ ‰
🖷 U+1F5B7 fax icon Faxsymbol 128439 🖷 🖷 (keine)

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. W3C (World Wide Web Consortium): Character entity references in HTML 4 – Liste der benannten Entitäten, die in HTML 4 (und somit beispielsweise für die Erstellung von Wikipedia-Artikeln) verfügbar sind
  2. W3C (World Wide Web Consortium): Character entity reference chart – Liste der benannten Zeichen-Entitäten, die in HTML 4 und in HTML5 verfügbar sind