Extensible Markup Language

Die Extensible Markup Language, abgekürzt XML, ist ein Standard zur Erstellung maschinen- und menschenlesbarer Dokumente in Form einer Baumstruktur. XML definiert dabei die Regeln für den Aufbau solcher Dokumente. Für einen konkreten Anwendungsfall ("XML-Anwendung") müssen die Details der jeweiligen Dokumente spezifiziert werden. Dies betrifft insbesondere die Festlegung der Strukturelemente und ihre Anordnung innerhalb des Dokumentenbaums. XML ist damit ein Standard zur Definition von beliebigen, in ihrer Grundstruktur jedoch stark verwandten Auszeichnungssprachen. XML ist eine vereinfachte Teilmenge von SGML.

Die Namen der einzelnen Strukturelemente (XML-Elemente) für eine konkrete XML-Anwendung lassen sich frei wählen. Ein XML-Element kann ganz unterschiedliche Daten enthalten bzw. beschreiben, als prominentestes Beispiel Text, aber auch Grafiken oder abstraktes Wissen. Ein Grundgedanke hinter XML ist es, Daten und ihre Repräsentation zu trennen. Also beispielsweise Wetterdaten einmal als Tabelle oder als Grafik auszugeben, aber für beide Anwendungen die gleiche Datenbasis im XML-Format zu nutzen.

Fachtermini

Wohlgeformtheit: Ein XML-Dokument ist wohlgeformt (well formed), falls es sämtliche Regeln für XML einhält (was z. B. Verschachtelungen von Elementen betrifft).

Gültigkeit: Soll XML für den Datenaustausch verwendet werden, ist es von Vorteil, wenn das Format mittels einer Grammatik (z.B. einer Dokumenttypdefinition (DTD) oder einem XML-Schema) definiert ist. Ein XML-Dokument, welches wohlgeformt ist und ein durch eine Grammatik beschriebenes Format einhält, heißt gültig (valid).

Parser: Programme bzw. Programmteile, die XML-Daten verarbeiten, nennt man XML-Parser.

Aufbau eines XML-Dokuments

Beispiel einer XML-Datei

<?xml version="1.0"?>
<enzyklopaedie>
     <titel>Wikipedia Städteverzeichnis </titel>
     <eintrag>
          <stichwort>Genf </stichwort>
          <eintragstext>Genf ist der Sitz von...</eintragstext>
     </eintrag>
     <eintrag>
          <stichwort>Köln </stichwort>
          <eintragstext>Köln ist eine Stadt, die ...</eintragstext>
     </eintrag>
</enzyklopaedie>

XML-Dokumente besitzen einen physischen und einen logischen Aufbau.

Der physische Aufbau eines XML-Dokumentes besteht aus

Entitäten. Die erste Entität ist die Hauptdatei des XML-Dokuments. Weitere mögliche Entitäten sind über
- Entitätenreferenzen (&name; für das Dokument bzw. %name; für die Dokumenttypdefinition) eingebundene Zeichenketten, eventuell auch ganze Dateien, sowie
- Referenzen auf Zeichenentitäten zur Einbindung einzelner Zeichen, die über ihre Nummer referenziert wurden (&#Dezimalzahl;, oder &#xHexadezimalzahl;).
Eine XML-Deklaration wird optional verwendet, um XML-Version, Zeichenkodierung und Verarbeitbarkeit ohne Dokumenttypdefinition zu spezifizieren.
Eine Dokumenttypdefinition wird optional verwendet, um Entitäten sowie den erlaubten logischen Aufbau zu spezifizieren.

Der logische Aufbau eines XML-Dokumentes ist ein hierarchisch strukturierter Baum. Als Baumknoten gibt es:

Elemente, deren physische Auszeichnung mittels
- einem passenden Paar aus Start-Tag (<Tag-Name>) und End-Tag (</Tag-Name>) oder
- einem Empty-Element-Tag (<Tag-Name />) erfolgen kann,
Attribute als bei einem Start-Tag oder Empty-Element-Tag geschriebene Schlüsselwort-Werte-Paare (Attribut-Name="Attribut-Wert") für Zusatz-Informationen über Elemente (eine Art Meta-Information),
Verarbeitungsanweisungen (<?Ziel-Name Parameter ?>, Engl. Processing Instruction)
Kommentare ()
Text, welcher als normaler Text oder in Form eines CDATA-Abschnittes (<![CDATA[ beliebiger Text ]]>) auftreten kann.

Ein XML-Dokument muss genau ein Element in der obersten Ebene enthalten. Unterhalb von diesem Dokumentelement können weitere Elemente verschachtelt werden.

Zur Spezifikation des logischen Aufbaus werden die Dokumenttypdefinitionen durch das umfangreichere XML Schema abgelöst, welches keine Möglichkeit zur Definition von Entitäten, jedoch einen adäquaten Ersatz für Entitäten besitzt. Processing Instructions werden in der Praxis meist eingesetzt, um in XML-Dokumenten Verarbeitungsanweisungen in anderen Sprachen einzubauen. Ein Beispiel dafür ist PHP, dessen Verarbeitungsanweisungen in XML-Dokumenten mit einer PHP-Verarbeitungsanweisung, z.B. <?php print "Hello, World";?> eingebaut werden können.

Einige Web-Browser können XML-Dokumente mit Hilfe eines eingebauten XML-Parsers direkt darstellen. Dies geschieht in Verbindung mit einem Stylesheet. Diese Transformation kann die Daten in ein komplett anderes Format umwandeln, das Zielformat muss nicht einmal XML sein.

Vorgänger von XML

Obwohl der Vorgänger SGML bereits weitaus umfangreicher war, kam es nie zu einer breiten Akzeptanz in der Öffentlichkeit. Der Grund dafür liegt in der Komplexität SGMLs, die die Softwareentwicklung stark erschwert. Der Bedarf nach einem unbeschränkten weltweiten Informationssaustausch und die Popularität von HTML brachten das deutlich einfachere XML hervor.

Unter dem Titel "Leise Revolution" ist ein 1995 in der iX erschienener Artikel nun online verfügbar.

Die Entwicklung von SGML bis zu XML ist in Abschnitt 2.3 "Die neue, alte Idee: Strukturorientiert schreiben" des Buches XML in der Praxis nachzulesen.

Kerntechnologien

Die Kerntechnologien im XML-Umfeld kann man grob aufteilen in: APIs zur Verarbeitung von XML und Sprachen zur Beschreibung von XML-Dateien.

APIs zur Verarbeitung von XML

SAX

SAX (Simple API for XML) ist eine standardisierte Möglichkeit, wie eine XML-Datei durch einen Parser bearbeitet wird. Hierbei wird ein Datei-Strom in einen Strom von Ereignissen umgewandelt. Programme können sich für einzelne Ereignisse registrieren, um bei Bedarf ihre Arbeit zu verrichten. Die Eingabedaten werden rein sequentiell verarbeitet. Ein Vorteil von SAX ist, dass nicht die gesamte XML-Datei im Speicher sein muss. Das ist aber dann ein Nachteil, wenn man viele Informationen, die über die ganze Datei verstreut sind, zur Verarbeitung benötigt.

DOM

DOM (Document Object Model) ist der zweite Weg, um XML-Dateien auszuwerten und wurde vom W3C standardisiert. Er stellt, wie der Name schon sagt, ein standardisiertes Objektmodell zur Verfügung, mit dessen Hilfe der Inhalt der XML-Datei ausgewertet oder manipuliert werden kann. Zum Aufbauen des Objektbaumes muss jedoch zunächst die gesamte Datei eingelesen werden, wofür möglicherweise viel Speicher benötigt wird. Vorteilhaft ist hingegen, dass dann alle Elemente in einer hierarchischen Struktur vorliegen und auf alle gleichermaßen zugegriffen werden kann. Die Elemente stehen zueinander in Beziehung (Eltern, Geschwister, Kinder). Als Nachteil von DOM kann sich ein hoher Speicherbedarf erweisen; er verhält sich proportional zur Größe der Eingabedatei. Als Beispiel sei eine Webseite erwähnt die in XML spezifiziert ist. 100kB sind hier schon eine beachtliche Grösse, die Bearbeitung in einem DOM ist deshalb problemlos. Auf der andern Seite kann ein Wörterbuch (3 MB Grunddaten) gegebenenfalls Probleme verursachen wobei es weniger der Speicherplatz an sich sein dürfte sondern die Zugriffsgeschwindigkeit. Beide Modelle haben deshalb ihre Berechtigung in der Anwendung.

Metasprachen

Um die Struktur von XML-Dokumenten zu beschreiben bedient man sich so genannter Schemasprachen. Die zwei bekanntesten sind DTD und XML Schema.

DTD

Eine DTD (Dokumenttypdefinition) ist eine Beschreibung eines XML-Dokuments. Sie wurde zusammen mit XML standardisiert. Mit einer DTD kann allerdings nicht sehr strikt beschrieben werden, wie eine XML-Datei aussehen darf. Ein weiterer Nachteil ist die Tatsache, dass die DTD in einer eigenen Sprache abgefasst werden muss.

XML-Schema

XML-Schema ist die moderne Möglichkeit, die Struktur von XML-Dokumenten zu beschreiben. XML-Schema bietet auch die Möglichkeit, den Inhalt von Elementen und Attributen zu beschränken, z. B. auf Zahlen, Datumsangaben oder Texte, z. B. mittels regulärer Ausdrücke. Ein Schema ist selbst ein XML-Dokument, welches erlaubt, komplexere Zusammenhänge als mit einer DTD zu beschreiben.

Weitere Schemasprachen

Weitere Schemasprachen sind RELAX NG, Schematron und Examplotron .

XML-Familie

Infrastruktur

Im Zusammenhang mit XML wurden vom W3-Konsortium auf Basis von XML viele Sprachen definiert, welche XML-Ausdrücke für häufig benötigte allgemeine Funktionen anbieten wie etwa die Verknüpfung von XML-Dokumenten. Zahlreiche XML-Sprachen nutzen diese Grundbausteine.

Transformation von XML-Dokumenten: XSLT
Adressierung von Teilen eines XML-Baumes: XPath
standardisierte Attribute: XML Base und xml:id
Verknüpfung von XML-Ressourcen: XPointer, XLink und XInclude
Selektion von Daten aus einem XML-Datensatz: XQuery
Definition von XML-Datenstrukturen: XML Schema bzw.
Strukturbeschreibungssprache für XML-Dokumente: XSD XML Schema Definition Language
Signatur und Verschlüsselung von XML-Knoten: XML Signature und XML Encryption

Sprachen

Während XML selbst aus SGML hervorgegangen ist, bedienen sich heute sehr viele formale Sprachen der Syntax von XML. So ist XML ein wesentliches Instrument, um, wie es das W3C vorsieht, eine offene, für Mensch und Maschine verständliche Informationslandschaft (semantisches Web) zu schaffen.

Auch die bekannte Dokumentsprache HTML wurde als "Extensible HyperText Markup Language" (XHTML) im Anschluss an die Version 4.01 in dieses Konzept integriert, sodass ihr nun XML als Definitionsbasis zu Grunde liegt. Vielfacher Grund für den Einsatz von XML ist das Vorhandensein von Parsern zu genüge und die einfache Syntax: die Definition von SGML umfasst 500 Seiten, jene von XML nur 26.

Die folgenden Listen stellen die wichtigsten dieser XML-Sprachen dar.

Text

XSL-FO (Textformatierung)
DocBook
DITA
XHTML (XML-konformes HTML)
TEI (Text Encoding Initiative)
NITF (News Industry Text Format)

Grafik

SVG
X3D

Geodaten

GML

Multimedia

Webservices

Sicherheit

Weitere

agroXML - XML für landwirtschaftliche Betriebe
CML - Chemical Markup Language
ebXML - E-Business XML
GPX XML für GPS-Daten
IfraTrack - XML für die Druckindustrie
MathML - Mathematic Markup Language
MSRSW - XML für die Beschreibung von Software im Automobil
Mumasy - ein vom VDMA standardisiertes XML-Schema für technische Dokumentation
ODX - Open Diagnostic eXchange zur Beschreibung von Diagnosekommunikation im Automobil
ONIX
OWL - Web Ontology Language, zum Aufbau von Wissensbasen (Ontologien) im Rahmen der Idee des semantischen Webs
RDF
VoiceXML
X3D - Extensible 3D, 3D-Modellierungssprache
XAML
XBRL - eXtensible Business Reporting Language
XForms - XML für Web-Formulare
XMPP (Jabber)
XPDL - XML für die Beschreibung von Prozessabläufen
XUL

Hier noch nicht behandelt:

Namensraum
Cω (lies: C - Omega)

Siehe auch

RDF, Semantisches Web, XTM, XML-Datenbank, XMPP, Spezial:Export

Programme

Editoren
- Open Source
- Nicht Open Source
  - Epic
  - XMetaL
  - XML Spy
  - Stylus Studio
  - Oxygen XML
  - XMLmind

Office
- OpenOffice.org, KOffice
- Microsoft Office (Seit der Version "Office 2003" ist das Editieren von speziellen XML-Dateien möglich, zuvor war nur eine unzulängliche XML-Unterstützung vorhanden; siehe Artikel in der iX 8/2004)
- AbiWord

Anzeigeprogramme
- Mozilla
- Firefox
- Netscape (ab Version 6)
- Internet Explorer
- Opera

XML-Schema Dokumentation
- Open Source
  - xsddoc
  - xs3p
- Nicht Open Source
  - XSDDoc

XML-Parser

XML-Parser dienen dem Auslesen eines XML-Dokuments nach bestimmten Kriterien. Beim DOM wird das gesamte Dokument in eine Struktur eingelesen, die dann weiterverarbeitet werden kann. XML-Parser sind in verschiedensten Sprachen vorhanden, z.B. Java, C, C++, C#, php, etc.

Übersicht von XML-Parsern
- Xerces
- Gnome XML-Parser
- Crimson
- Expat
- SimpleXML (php5)

Literatur

Elliotte Rusty Harold: Die XML Bibel, mitp 2002, ISBN 3826608216
Stefan Mintert (Hrsg.): XML & Co - Die W3C-Spezifikationen für Dokumenten- und Datenarchitektur, Addison-Wesley, München, ISBN 3827318440
Erik T. Ray: Einführung in XML, O'Reilly 2004, ISBN 3897212862
Helmut Vonhoegen: Einstieg in XML, Galileo Computing 2004, ISBN 3-89842-488-X.
Frank Bitzer: XML im Unternehmen, Galileo Computing 2003, ISBN 3-89842-288-7.
Tobias Ott: Das XML Kompendium, pagina Tübingen 2005, ISBN 3-938529-01-6.

Weblinks

World Wide Web Consortium über XML (englisch), <edition W3C.de> - Deutsche Übersetzungen zu XML u.a.
XML in 10 Punkten
Unterschiede zu SGML im Detail
XML in der Praxis - Online-Buch
Vorlesung über XML
Umfangreiche Linksammlung zu XML
Publizieren mit XML (Universität Hannover)
XML-Einführung bei Internet-Kompetenz.ch
SELFHTML XML-Einführung
HTMLWorld: XML-Tutorial
Deutsche Übersetzung der XML-Spezifikation
Datenbanken und XML (Buch und Literaturübersicht)
xml.apache.org (englisch)
XML-Tutorial für Einsteiger
XML-, DTD- und XSL-Tutorium
XML for Advanced Web technologies (englisch; Tutorium)
XML City. Kompakte Informationen in deutsch

Vorlage:WikiReader Internet

Extensible Markup Language

Inhaltsverzeichnis

Fachtermini

Aufbau eines XML-Dokuments

Vorgänger von XML

Kerntechnologien

APIs zur Verarbeitung von XML

SAX

DOM

Metasprachen

DTD

XML-Schema

Weitere Schemasprachen

XML-Familie

Infrastruktur

Sprachen

Text

Grafik

Geodaten

Multimedia

Webservices

Sicherheit

Weitere

Siehe auch

Programme

XML-Parser

Literatur

Weblinks

Navigationsmenü

Extensible Markup Language

Fachtermini

Aufbau eines XML-Dokuments

Vorgänger von XML

Kerntechnologien

APIs zur Verarbeitung von XML

SAX

DOM

Metasprachen

DTD

XML-Schema

Weitere Schemasprachen

XML-Familie

Infrastruktur

Sprachen

Text

Grafik

Geodaten

Multimedia

Webservices

Sicherheit

Weitere

Siehe auch

Programme

XML-Parser

Literatur

Weblinks

Navigationsmenü

Suche