Uniform Resource Identifier
Ein Uniform Resource Identifier (Abk. URI; engl. für „einheitlicher Bezeichner für Ressourcen“) ist ein Identifikator und besteht aus einer Zeichenfolge, die zur Identifizierung einer abstrakten oder physischen Ressource dient. URIs werden zur Bezeichnung von Ressourcen (wie Webseiten, sonstigen Dateien, Aufruf von Webservices, aber auch z. B. E-Mail-Empfängern) im Internet und dort vor allem im WWW eingesetzt. Der aktuelle Stand ist als RFC 3986 publiziert.
Ursprünglich führte Tim Berners-Lee den Begriff 1994 im RFC 1630 als Universal Resource Identifier ein. Erst später tauchte dann in offiziellen W3C-Dokumenten die Auflösung Uniform auf. Aus diesem Grund wird Universal gelegentlich – selbst in der Fachliteratur – als erster Namensbestandteil genannt.
URIs können als Zeichenfolge (kodiert mit einem Zeichensatz) in digitale Dokumente, insbesondere solche im HTML-Format eingebunden oder auch von Hand auf Papier aufgeschrieben werden. Einen Verweis von einer Webseite auf eine andere nennt man Hyperlink oder kurz „Link“.
Eine Erweiterung der nur aus druckbaren ASCII-Zeichen bestehenden URIs sind die Internationalized Resource Identifiers (IRIs).
Inhaltsverzeichnis |
Konzeption [Bearbeiten]
Ein URI (oder in der Erweiterung IRI) ist das abstrakte Prinzip, bei dem ein Satz an Regeln vorgegeben ist. Dieses Grundkonzept der URI wird dann auf verschiedene konkrete Anwendungsbereiche übertragen, für die dann die entsprechenden Regeln und Begriffe gelten.
- Beispiele: „URI können nie Leerzeichen enthalten.“ oder „Zu Beginn steht der Name eines Schemas in ASCII-Buchstaben und Ziffern, ggf. gegliedert durch Punkt und Bindestrich-Minus, beginnend mit Buchstaben, worauf ein Doppelpunkt folgt.“
Grundsätzlich gibt es drei Typen von Anwendungen:
- Name
- Der Inhalt einer Ressource (und damit jede inhaltsgleiche Kopie) erhält eine eindeutige Kennung.
- Beispiel: Die ISBN eines Buches. Es gibt unbegrenzt viele Exemplare dieses Buches.
- Locator
- Eine Ressource wird darüber identifiziert, wo sie zu finden ist; es wird damit jedoch nicht zwangsläufig ihr Inhalt festgelegt.
- Beispiel: Aktueller Wetterbericht im Internet. Es ist bekannt, an welcher Stelle (URL) dieser zu finden ist; der Inhalt ändert sich ständig.
- Beispiel: Ein Buch wird dadurch beschrieben, in welcher Bibliothek es steht; dort im zweiten Raum, drittes Regal, viertes Fach von oben, fünftes Buch von links. Dort könnten die aktuellen Top-5 der Bestsellerliste stehen. Was auch immer der Inhalt sein möge.
- Individuum
- Die Regeln der URI können auch angewendet werden, wenn etwas überhaupt keine klassische Ressource ist, und trotzdem zur Identifizierung benutzt werden.
- Zunächst verstand man unter „Ressource“ etwas wie Ressource (Software), also im weitesten Sinne elektronische Dateien, die auch im Internet verfügbar gemacht werden könnten. Davon gingen 1994 die RFC 1630 und RFC 1738 aus.
- Dieses Konzept wurde jedoch erweitert; so war 1998 in der RFC 2396 (Abschnitt 1.1) festgelegt worden: A resource can be anything that has identity. Auch menschliche Wesen, Organisationen und gedruckte Bücher könnten als Ressource betrachtet werden.
- Beispiele: E-Mail-Adresse, Nummer eines Mobiltelefons, Reisepass sowie der legitime Inhaber, Sozialversicherungsnummer, Fingerabdruck und der Mensch dazu.
Aufbau [Bearbeiten]
Nach dem aktuellen Standard RFC 3986 besteht ein URI aus fünf Teilen: scheme (Schema), authority (Anbieter), path (Pfad), query (Abfrage) und fragment (Teil), wovon nur scheme und path in jedem URI vorhanden sein müssen. Die generische Syntax ist
URI = scheme ":" hier-part [ "?" query ] [ "#" fragment ]
Dabei steht hier-part für eine optionale authority und den path. Ist eine authority vorhanden, beginnt sie mit zwei Schrägstrichen, und der Pfad muss mit einem Schrägstrich beginnen. Der Standard verdeutlicht diese Komponenten mit zwei Beispielen:
foo://example.com:8042/over/there?name=ferret#nose \_/ \______________/\_________/ \_________/ \__/ | | | | | scheme authority path query fragment | _____________________|__ / \ / \ urn:example:animal:ferret:nose
Scheme [Bearbeiten]
Das Schema (der Teil vor dem Doppelpunkt) gibt den Typ des URIs an, der die Interpretation des folgenden Teils festlegt. Bekannte Schemata sind beispielsweise http, ftp, urn und doi.
Authority [Bearbeiten]
Viele URI-Schemata wie http oder ftp haben einen authority-Teil. Der Begriff authority bezieht sich auf eine Instanz, die die Namen in diesem Raum zentral verwalten kann. Ein Beispiel dafür ist das Domain Name System, das von globalen und lokalen Registraren verwaltet wird.
Die authority besteht aus einer optionalen Benutzerinformation (gefolgt von einem „@“), dem Host und einer optionalen (durch einen Doppelpunkt eingeleiteten) Port-Angabe. Sie folgt auf zwei Schrägstriche („//“) und wird von einem einfachen Schrägstrich („/“), einem Fragezeichen („?“), einem Doppelkreuz („#“) oder dem Ende des URIs begrenzt. Der Host-Teil kann aus einer IP-Adresse, einer IPv6-Adresse (in eckigen Klammern „[...]“) oder einem registrierten Namen bestehen. Gültige Werte sind beispielsweise
de.wikipedia.orguser@example.com:8080192.0.2.16:80[2001:db8::7]
Die mögliche Angabe eines Passwortes in der Benutzerinformation („user:password@...“) ist überholt und sollte nicht mehr verwendet werden, da URIs oft im Klartext übertragen und protokolliert werden. Gleiches gilt für vertrauliche Benutzernamen.
Path [Bearbeiten]
Der Pfad enthält – meist hierarchisch organisierte – Angaben, die zusammen mit dem Abfrageteil eine Ressource identifizieren. Falls eine authority angegeben wird, muss er mit einem Schrägstrich („/“) beginnen, andernfalls darf er nicht mit einem doppelten Schrägstrich („//“) beginnen. Er wird von einem Fragezeichen („?“), einem Doppelkreuz („#“) oder dem Ende des URI begrenzt. Gültige Pfade sind beispielsweise
/over/thereexample:animal:ferret:nose
Query [Bearbeiten]
Der Abfrageteil (Query String) beinhaltet nicht-hierarchische Daten zur Identifizierung von Ressourcen. Er wird mit einem Fragezeichen („?“) eingeleitet und von einem Doppelkreuz („#“) oder dem Ende des URI begrenzt. Eine gültige Abfrage ist beispielsweise
?title=Uniform_Resource_Identifier&action=submit
Fragment [Bearbeiten]
fragment ist der Fragmentbezeichner und referenziert einen Teil innerhalb einer Ressource. Es wird von einem Doppelkreuz („#“) eingeleitet. Ein Beispiel dafür ist der Anker in HTML.
Beispiele [Bearbeiten]
- http://de.wikipedia.org/wiki/Uniform_Resource_Identifier
- ftp://ftp.is.co.za/rfc/rfc1808.txt
- file:///C:/Dokumente%20und%20Einstellungen/Benutzer/Desktop/Uniform%20Resource%20Identifier.html
- file:///etc/fstab
- geo:48.33,14.122;u=22.5
- ldap://[2001:db8::7]/c=GB?objectClass?one
- gopher://gopher.floodgap.com
- mailto:John.Doe@example.com
- sip:911@pbx.mycompany.com
- news:comp.infosystems.www.servers.unix
- data:text/plain;charset=iso-8859-7,%be%fa%be
- tel:+1-816-555-1212
- telnet://192.0.2.16:80/
- urn:oasis:names:specification:docbook:dtd:xml:4.1.2
- git://github.com/rails/rails.git
- crid://broadcaster.com/movies/BestActionMovieEver
Ein Beispiel mit sehr vielen Elementen gleichzeitig in der URI:
- http://nobody:password@example.org:8080/cgi-bin/script.php?action=submit&pageid=86392001#section_2
URI-Referenzen [Bearbeiten]
Oft verwenden Anwendungen nicht den vollständigen URI, sondern eine abgekürzte Syntax, beispielsweise um Platz zu sparen oder den einfachen Umzug auf andere Server zu ermöglichen. Manche URI-Schemata begrenzen in ihrer Definition zudem die Syntax auf eine bestimmte Form. Unter dem Begriff der URI-Referenzen werden unterschiedliche Schreibweisen zusammengefasst.
Absolute URIs [Bearbeiten]
Ein absoluter URI besteht mindestens aus scheme und hier-part (also einer authority und/oder einem path). Beispiele sind
http://de.wikipedia.orgfile://localhost/var/spool/dump.bin
Relative Referenz [Bearbeiten]
Wenn eine URI-Referenz nicht mit einem scheme beginnt, wird angenommen, dass es sich um eine relative Referenz handelt. Die Auflösung einer relativen Referenz zu einem absoluten URI erfolgt abhängig vom Kontext nach standardisierten Regeln. Eine relative Referenz besteht aus einem path sowie optional aus query und fragment. Es werden drei Arten von relativen Referenzen unterschieden:
- Beginnt der Pfad ohne Schrägstrich, handelt es sich um eine relative Pfad-Referenz, beispielsweise
image.png,./image.pngund../images/image.png. - Beginnt der Pfad mit einem einzelnen Schrägstrich („
/“), handelt es sich um eine absolute Pfad-Referenz. - Beginnt der Pfad mit doppelten Schrägstrichen („
//“), handelt es sich um eine Netzwerk-Pfad-Referenz.
Referenz innerhalb desselben Dokumentes [Bearbeiten]
URI-Referenzen können auf dasselbe Dokument verweisen, dessen Teil sie sind. Die häufigste Anwendung ist das Doppelkreuz („#“), gefolgt von einem Fragment-Bezeichner.
Suffix-Referenzen [Bearbeiten]
Weit verbreitet ist die Angabe von URI-Referenzen ohne Bezeichnung des Protokolls, etwa www.wikipedia.de. Unter der Annahme, dass sich aus dem Suffix (im Beispiel www, DNS-Namen werden von rechts nach links aufgebaut) auf das Protokoll (hier http) schließen lässt, funktioniert die Auflösung solcher Referenzen. Allerdings ist diese Auflösung von entsprechenden Annahmen und zudem von der jeweiligen Software abhängig. Deshalb sollten Suffix-Referenzen vermieden werden.
Schemata [Bearbeiten]
Unter anderem sind folgende Schemata definiert:
| Schema | Beschreibung |
|---|---|
crid |
Fernsehsendungen |
data |
Data-URL: direkt eingebettete Daten |
file |
Dateien im lokalen Dateisystem |
ftp |
File Transfer Protocol |
geo |
Geografische Koordinaten |
gopher |
Gopher |
http |
Hypertext Transfer Protocol |
ldap |
Lightweight Directory Access Protocol |
mailto |
E-Mail-Adresse |
news |
Newsgroup oder Newsartikel |
pop |
Mailboxzugriff über POP3 |
rsync |
Synchronisation von Daten mit rsync |
sip |
SIP-gestützter Sitzungsaufbau, z. B. für IP-Telefonie |
tel |
Telefonnummer |
urn |
Uniform Resource Names (URNs) |
ws |
WebSocket |
wss |
|
| xmpp | Extensible Messaging and Presence Protocol für Jabber Identifier |
Auf der Website der IANA befindet sich eine vollständige Liste der offiziellen Schemata.[1]
Daneben haben sich einige inoffizielle Schemata für einzelne Anwendungen oder gängige Protokolle etabliert:
| Schema | Beschreibung |
|---|---|
about |
browserinterne Informationen[2] |
afp |
Apple Filing Protocol[3] |
callto |
Telefonnummern (u. a. Skype und NetMeeting) |
coffee |
Hyper Text Coffee Pot Control Protocol |
daap |
Digital Audio Access Protocol |
doi |
Digital Object Identifier |
ed2k |
ED2k-URI-Schema von eDonkey2000/Kademlia |
feed |
RSS-Feeds |
finger |
Finger[4] |
fish |
Files transferred over Shell protocol |
git |
Git |
irc/ircs |
Internet Relay Chat[5] |
javascript |
Ausführung von JavaScript-Code[6] |
lastfm |
Last.fm |
magnet |
Magnet-Link |
mms |
Microsoft Media Server |
rtmp |
Real Time Messaging Protocol |
sftp |
SSH File Transfer Protocol[7] |
skype |
Telefonnummern (nur Skype) |
smb |
Server Message Block[8] |
ssh |
Secure Shell[7] |
svn/svn+ssh |
Apache Subversion |
view-source |
Quelltextanzeige für eine Webseite[9] |
webcal |
iCalendar |
wyciwyg |
What You Cache Is What You Get, Firefox-interne Anzeige für die Darstellung gecachter Inhalte |
| ymsgr | Yahoo Messenger |
Unterarten [Bearbeiten]
Es werden folgende Unterarten von URIs unterschieden:
- Uniform Resource Locators (URLs)
- benennen eine Ressource über ihren primären Zugriffsmechanismus wie zum Beispiel
httpoderftp. Danach folgt die Bezeichnung des Ortes (engl. location) der Ressource im Netz – meistens der Domain-Name. URLs waren ursprünglich die einzige Art von URIs, weshalb der Begriff URL oft gleichbedeutend mit URI verwendet wird. - Uniform Resource Names (URNs)
- mit dem URI-Schema
urnidentifizieren eine Ressource mittels eines vorhandenen oder frei zu vergebenden Namens, z. B.urn:isbnoderurn:sha1.
Ursprünglich sollte jeder URI in eine dieser beiden Klassen (oder weitere noch zu definierende) eingeteilt werden. Diese strenge Aufteilung wurde jedoch aufgegeben, da sie unnötig ist und einige Schemata (wie data oder das früher den URLs zugeordnete mailto) in keine der beiden Klassen passen.
Siehe auch [Bearbeiten]
- Digital Object Identifier (DOI)
- Persistent Uniform Resource Locator (PURL)
- Internationalized Resource Identifier (IRI)
Weblinks [Bearbeiten]
- RFC 1630 – Universal Resource Identifiers in WWW (Status: INFORMATIONAL)
- RFC 3986 – Uniform Resource Identifier (URI): Generic Syntax (Status: STANDARD)
- Web Naming and Addressing (englisch)
- IETF URI Working Group (englisch)
- Uniform Resource Identifer (URI) Schemes. Offizielle Liste der URI-Schemata bei der IANA
- Tim Berners-Lee: Cool URIs Don’t Change. (englisch) Zur weisen Festlegung von URI