Semantic Web

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Semantisches Web)
Wechseln zu: Navigation, Suche

Das Semantic Web (engl. the Semantic Web ‚das Semantik-Web‘ [nicht gebräuchlich]) oder das Semantische Web (kaum gebräuchlich, [fälschl.] abgeleitet von engl. the semantic Web ‚das semantische Web‘) erweitert das Web, um Daten zwischen Rechnern einfacher austauschbar und für sie verwertbar zu machen. Zur Realisierung dienen Standards zur Veröffentlichung und Nutzung maschinenlesbarer Daten, insbesondere RDF. Mit diesen werden die eigentlichen, die primären Daten mit zusätzlichen Informationen (Metadaten) über die primären Daten verknüpft; so kann beispielsweise der Begriff „Bremen“ ergänzt werden um die Information, ob hier ein Schiffs-, Familien- oder der Stadtname gemeint ist.

Während Menschen solche Informationen aus dem gegebenen Kontext schließen können (aus dem Gesamttext, über die Art der Publikation oder der Rubrik in selbiger, Bilder, etc.) und derartige Verknüpfungen unbewusst aufbauen, muss ein solcher Kontext den Maschinen erst zugänglich gemacht werden. Das Semantic Web beschreibt daher konzeptionell einen „Giant Global Graph“ (engl. ‚gigantischer globaler Graph‘). Dabei werden alle Dinge von Interesse identifiziert und mit einer eindeutigen Adresse versehen als unikaler Knoten angelegt, die wiederum durch Kanten (ebenfalls jeweils eindeutig benannt) miteinander verbunden sind. Einzelne Dokumente im Web beschreiben dann eine Reihe von Kanten, und die Gesamtheit all dieser Kanten entspricht dem globalen Graphen.

Das Konzept beruht auf einem Vorschlag von Tim Berners-Lee, dem Begründer des World Wide Web: das Semantische Web ist eine Erweiterung des herkömmlichen Webs, in der Informationen mit eindeutigen Bedeutungen versehen werden, um die Arbeit zwischen Mensch und Maschine zu erleichtern („The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation“ ).[1] In Anlehnung an den Begriff Web 2.0 spricht man nach John Markoff vom Web 3.0, wenn zu den Konzepten des Web 2.0 noch die Konzepte des Semantischen Web hinzukommen.[2][3]

Beispiel[Bearbeiten]

Im folgenden Beispiel wird im Text „Paul Schuster wurde in Dresden geboren“ auf einer Webseite der Name einer Person mit dessen Geburtsort verknüpft. Das Fragment eines HTML-Dokuments zeigt, wie in RDFa-Syntax unter Verwendung des schema.org-Vokabulars und einer Wikidata-ID ein kleiner Graph beschrieben wird:

<div vocab="http://schema.org/" typeof="Person">
  <span property="name">Paul Schuster</span> wurde in
    <span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731">
      <span property="name">Dresden</span>
    </span> geboren.
</div>
Graph der sich aus dem RDFa-Beispiel ergibt

Das Beispiel definiert folgende fünf Tripel (dargestellt im Turtle-Format). Dabei repräsentiert jedes Tripel einen Kanten im sich ergebenden Graphen: die erste Teil des Tripels (das Subjekt) ist der Name des Knotens, wo die Kante beginnt, der zweite Teil des Tripels (das Prädikat) die Art der Kante, und der dritte und letzte Teil des Tripels (das Objekt) entweder der Name des Knotens, in dem die Kante endet, oder ein Literalwert (z.B. ein Text, eine Zahl, usf.).

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> .
_:a <http://schema.org/name> "Paul Schuster" .
_:a <http://schema.org/birthPlace> <http://www.wikidata.org/entity/Q1731> .
<http://www.wikidata.org/entity/Q1731> <http://schema.org/itemtype> <http://schema.org/Place> .
<http://www.wikidata.org/entity/Q1731> <http://schema.org/name> "Dresden" .

Die Tripel ergeben den nebenstehenden Graphen (obere Abbildung).

Graph der sich aus dem RDFa-Beispiel ergibt, angereichert mit zusätzlichen Informationen aus dem Web

Einer der Vorteile, URIs zu verwenden, ist dass diese über das HTTP-Protokoll aufgelöst werden können und oft ein Dokument zurückgeben, welches die gegebene URI weiter beschreibt (das ist das sogenannte Linked Open Data-Prinzip). Im gegebenen Beispiel etwa kann man die URIs der Knoten und Kanten (z.B. http://schema.org/Person, http://schema.org/birthPlace, http://www.wikidata.org/entity/Q1731) alle auflösen und erhält dann weitergehende Beschreibungen, z.B. dass Dresden eine Stadt in Deutschland ist, oder dass eine Person auch fiktiv sein kann.

Der nebenstehende Graph (untere Abbildung) zeigt das vorhergehende Beispiel, angereichert um (einige wenige beispielhafte) Tripel aus den Dokumenten die man erhält, wenn man http://schema.org/Person (grüne Kante) und http://www.wikidata.org/entity/Q1731 (blaue Kanten) auflöst.

Zusätzlich zu den explizit in den Dokumenten gegebenen Kanten, kann man auch weitere Kanten automatisch schlussfolgern: das Tripel

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> .

aus dem ursprünglichen RDFa-Fragment, zusammen mit dem Tripel

<http://schema.org/Person> <http://www.w3.org/2002/07/owl#equivalentClass> <http://xmlns.com/foaf/0.1/Person> .

aus dem Dokument, welches man in http://schema.org/Person fand (in der Grafik die grüne Kante), erlauben es unter der OWL-Semantik das folgende Tripel zu schlussfolgern (in der Grafik, die gestrichelte rote Kante):

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> .

Grundlagen[Bearbeiten]

Das Semantic Web baut auf existierenden Web-Standards und Arbeiten im Bereich Wissensrepräsentation auf.

"Klassisches" Web[Bearbeiten]

Das "klassische" Web - also das Web der Dokumente, wie es von Tim Berners-Lee eingeführt und seitdem kontinuierlich erweitert wurde - basiert auf einer Zahl von Standards:

Sehr bald wurden auch Bilder in Formaten wie GIF und JPEG ausgetauscht, und in HTML-Dokumente eingebettet. Bereits im ursprünglichen Vorschlag von Tim Berners-Lee von 1989 wies er darauf hin, dass diese Standards auch zum Austausch von miteinander vernetzten Daten verwendet werden können. Jedoch, wie auch andere Teile des Vorschlags (z.B. dass alle Seiten im Web leicht zu editieren sein sollten), ging das zunächst unter.

Somit sind die meisten Inhalte im Web großteils unstrukturiert, z.B. natürlichsprachlicher Text, Bilder, Videos. Ob es sich bei einem Textstück um einen Vornamen, einen Nachnamen, den Namen einer Stadt oder eines Unternehmens oder eine Adresse handelt, ist in der Struktur eines (klassischen) HTML-Dokuments nicht explizit gegeben. Das erschwert die maschinelle Verarbeitung der Inhalte, die angesichts der rasch wachsenden Menge an zur Verfügung stehenden Informationen wünschenswert wäre. Die Standards des Semantic Webs sollen Lösungen für diese Probleme anbieten. Texte und die Dokumentstruktur können explizit ausgezeichnet und strukturiert werden, so dass es Computern ermöglicht wird, Daten einfach aus den Dokumenten auszulesen. Durch die Verwendung des gemeinsamen RDF-Datenmodells und einer standardisierten Ontologiesprache können zudem die Daten weltweit integriert und sogar implizites Wissen aus den Daten geschlossen werden.

Metadaten[Bearbeiten]

HTML-Dokumente erhielten bereits die Möglichkeit, eine begrenzte Zahl von Metadaten festzuhalten - in dem Fall Daten über die jeweiligen Dokumente. Mitte der 90er begann Ramanathan V. Guha (ein Schüler McCarthys und Feigenbaums und ein Mitarbeiter des Cyc-Projektes) die Arbeit am Meta Content Framework (MCF), zunächst bei Apple und ab 1997 bei Netscape. Ziel des MCF war es, eine allgemeine Grundlage für Metadaten zu schaffen. Zur selben Zeit wurde beim Web-Standard Konsortium W3C an XML gearbeitet. Die Idee von MCF wurde dann mit der Syntax von XML verbunden, um die erste Version von RDF zu ergeben.

Der erste weit verbreitete Einsatz von RDF fand sich in RSS, einem Standard um Feeds darzustellen und zu abonnieren. Dies fand vor allem in Blogs Anwendung, die dann durch RSS Reader abonniert werden konnten.

Obwohl zunächst meistens nur an Metadaten gedacht wurde - insbesondere Metadaten zu im Web vorhandenen Dokumenten, die dann von Indizier- und Suchmaschinen ausgewertet werden können - ist mit der Entwicklung von RDF uns spätestens mit dem Artikel im Scientific American 2001 diese Beschränkung weggefallen. RDF ist ein Standard zum Austausch von Daten, und keineswegs auf Metadaten beschränkt. Dennoch wird in vielen Texten zum Semantic Web veraltet nur von Metadaten gesprochen. Die meisten Syntaxen zum Austausch von RDF - NTriples, N3, RDF/XML, JSON-LD - sind gar nicht in der Lage, direkt im Text zum Auszeichnen von Textstellen verwendet zu werden (im Gegensatz zu RDFa). Entsprechend fand auch die Erweiterung von URLs (Uniform Resource Locator) - die zum Adressieren von Dokument im Web verwendet werden - zu URIs statt (Uniform Resource Identifier) - die zum identifizieren beliebiger Dinge verwendet werden können, insbesondere also auch von Dingen, die in der Welt (z.B. Häuser, Personen, Bücher) oder auch nur abstrakt sind (z.B. Ideen, Religionen, Beziehungen).

Wissensrepräsentation[Bearbeiten]

Ursprünge des Semantischen Web liegen auch im Forschungsgebiet der Künstlichen Intelligenz, insbesondere dem Unterbereich Wissensrepräsentation. Bereits MCF baute systematisch auf einer Prädikatenlogik auf.

Logo des Gremiums zur Standardisierung des WWW

Ursprünglich waren die Attribute für Metadaten in den Dokumenten eng begrenzt: in HTML war es möglich Schlüsselwörter, Erscheinungsdaten, Autoren, etc. anzugeben. Dieser Bereich wurde dann durch die Dublin Core-Gruppe stark erweitert und systematisch ausgebaut, wobei sehr viel Erfahrungen aus den Bibliothekswissenschaften einflossen. Doch auch das führte zu einem begrenzten Vokabular, d.h. zu einer kleinen Menge von verwendbaren Attributen und Typen. Ein so kleines Vokabular kann mit vergleichsweise wenig Aufwand von einem Computerprogramm bearbeitet werden.

Ein Ziel des Semantic Webs war es aber, beliebige Daten darstellen zu können. Dazu war es notwendig, das Vokabular erweitern zu können, also beliebige Beziehungen, Attribute und Typen zu deklarieren. Um die Deklaration dieser Vokabulare, auch Ontologien genannt, auf einer soliden formalen Basis aufzubauen, entstanden unabhängig voneinander zwei Sprachen, die in den USA von der DARPA finanzierte DARPA Agent Markup Language (DAML) und die in der EU vom Forschungsrahmenprogramm finanzierte Ontology Inference Layer (OIL) in Europa. Beide bauten auf früheren Ergebnissen aus dem Bereich Wissensrepräsentation auf, insbesondere Frames, Semantische Netze, Conceptual Graphs und Beschreibungslogiken. Die beiden Sprachen wurden um 2000 schließlich in einem gemeinsamen Projekt unter Federführung des W3C vereinigt, zunächst als DAML+OIL, und schließlich die 2004 veröffentlichte Ontologiesprache OWL.

Standards[Bearbeiten]

Die 2006er Version des sogenannten Semantic Web Layer Cake (dt. "Schichtenkuchen"). Der Layer Cake wurde alle paar Jahre angepasst.

Zur Realisierung des Semantic Webs dienen Standards zur Veröffentlichung und Nutzung maschinenlesbarer Daten. Zentrale Standards dabei sind:

  • URIs in der doppelten Rolle zur Identifizierung von Entitäten und zum Verweisen auf weitergehende Daten dazu
  • RDF als gemeinsames Datenmodell zur Repräsentation von Aussagen
  • RDFS zur Deklaration des Vokabulars, welches in RDF verwendet wird
  • OWL zur formalen Definition des in RDFS deklarierten Vokabulars in einer Ontologie
  • RIF für die Darstellung von Regeln
  • SPARQL als Anfragesprache und -protokoll
  • eine Reihe von verschiedenen Syntaxen um RDF-Graphen auszutauschen:
    • RDF/XML, eine XML-Syntax. Lange Zeit die einzige standardisierte Syntax
    • Turtle, eine Syntax die dem Tripelmodell näherkommt
    • JSON-LD, eine JSON-basierte Syntax
    • RDFa, um RDF in XML-Dokumenten, insbesondere XHTML, einzubetten

URIs[Bearbeiten]

URIs - engl. Uniform Resource Identifier - erfüllen eine doppelte Aufgabe im Semantic Web: einerseits dienen sie als eindeutige, weltweit gültige Namen für alle Dinge, die im Semantic Web bezeichnet werden. D.h. das die selbe URI in verschiedenen Dokumenten das gleiche Ding bezeichnet. Das erlaubt es, Daten einfach zusammenzufügen. Andererseits kann die URI auch als Adresse dienen, unter der man weitergehende Daten zu der bezeichneten Ressource abrufen kann, im Fall eines Dokuments das Dokument selbst. Im diesem Fall ist die URI nicht von einer URL zu unterscheiden.

Obwohl jede URI weltweit immer das selbe Ding bezeichnet, also jede URI genau ein Ding identifiziert, ist es umgekehrt nicht der Fall, dass ein Ding weltweit genau von einer URI identifiziert wird - im Gegenteil, oft haben Dinge - wie die Stadt Bremen, die Person Angela Merkel, oder der Film Das Fenster zum Hof - viele verschiedene URIs. Um die Verknüpfung zwischen diesen verschiedenen URIs zu vereinfachen, hat man verschiedene Möglichkeiten um zu sagen dass zwei URIs das gleiche Ding bezeichnen, z.B. durch Schlüssel oder durch explizites Verknüpfen zweier URIs mit der sameAs-Relation aus dem OWL-Vokabular.

RDF[Bearbeiten]

RDF als Datenmodell basiert auf Tripeln aus Subjekt, Prädikat und Objekt. Eine Menge von RDF-Tripeln ergeben einen RDF-Graphen: hierbei werden das Subjekt und das Objekt als Knoten betrachtet, und das Prädikat ist der Name der gerichteten Kante von Subjekt zu Objekt. Prädikate sind immer URIs, Subjekte sind üblicherweise URIs, können aber auch unbenannte Knoten (en. blank nodes) sein, und Objekte sind entweder URIs, unbenannte Knoten oder Literale. Literale sind z.B. Texte, Zahlen, Datumsangaben, etc.

Unbenannte Knoten sind im Gegensatz zu mit URIs benannte Knoten nur lokal benannt, d.h. sie haben keinen global eindeutigen Namen. Wenn zwei verschiedene RDF-Graphen je einen Knoten mit der URI http://www.wikidata.org/entity/Q42 haben, dann bezeichnet dieser Knoten per Standard das selbe Ding. So kann ein zweiter Graph weitergehende Aussagen über die selben Sachen machen wie der erste Graph, und erlaubt es so jedem alles über alles zu sagen. Wird jedoch in einem RDF-Graphen ein unbenannter Knoten verwendet, kann ein zweiter Graph nicht direkt Aussagen über den unbenannten Knoten des ersten Graphen machen.

Vorteile von RDF-Graphen sind dass sie sehr regelmäßig sind - es sind nur Mengen von Tripeln - und dass sie sehr einfach zusammenzufügen sind - zwei Graphen ergeben einen Graphen indem man einfach deren Mengen von Tripeln vereinigt. In manchen tripelbasierten Syntaxen wie NTripel bedeutet das, dass man einfach die Dateien aneinanderhängen kann.

RDF-Schema (RDF Vocabulary Description Language)[Bearbeiten]

Idealerweise wird für die Prädikate ein bekanntes und weitverbreitetes Vokabular benutzt wird, wie z. B. das Dublin Core Element Set (DC), das eindeutige URIs für die wichtigsten Metadatentypen bereitstellt, sind die Informationen der so ausgezeichneten Ressourcen auch für Computerprogramme als Metadaten identifizierbar und entsprechend interpretierbar, also z. B. ein Autor als eben solcher.

Mit dem Resource-Description-Framework-Modell erhält man die Möglichkeit, einzelne XML-konforme Dokumente zu erzeugen, welche Objekte anhand von Statements beschreiben. Durch die geschickte Wahl der Ressource-Namen erhält man Informationen über das jeweilige Objekt. Um eine Gruppe von ähnlichen Objekten, z. B. Bücher, alle mit den gleichen Eigenschaften auszuzeichnen, bietet RDF keine Möglichkeit um einen „Rahmen“ für alle diese Objekte zu definieren. Für diese Zwecke wurde die RDF-Beschreibungssprache – RDF-Schema (RDFS, offiziell: „RDF Vocabulary Description Language“) – definiert. Diese stellt die Möglichkeit bereit, Begriffe und die damit verbundenen Elemente semantisch zueinander in Beziehung zu setzen. Zum Beispiel kann mit RDFS festgelegt werden, dass die Eigenschaft title dazu verwendet wird, um den Titel eines Buchs zu beschreiben. In RDF-Schema wird für jede Eigenschaft festgelegt, welche Werte erlaubt sind, was diese für eine Bedeutung hat, welche Beziehungen zu anderen Eigenschaften bestehen und welche Arten von Ressourcen diese Eigenschaft verwenden dürfen. Dabei wurde vom W3C nicht ein allgemein gültiges Schema definiert, in dem verschiedene Klassen und Eigenschaften festgelegt werden, sondern es wird in einer „Scheme-Definition Language“ beschrieben, mit deren Hilfe die eigentlichen Schemata definiert werden können. Diese Schemata werden auch als Vokabulare bezeichnet. In den letzten Jahren haben sich RDF-Schema-Gemeinschaften gebildet, die die Aufgabe haben, RDF-Schema-Metadatenmodelle zu entwerfen, z. B. der Dublin Core. Durch diese dezentralisierte Vorgehensweise wird eingestanden, dass es unmöglich ist, ein einzelnes für alle Gebrauchsmöglichkeiten passendes Schema zu entwickeln.

Web-Ontologiesprache[Bearbeiten]

Das Semantische Web sowie RDF/OWL wurden vom World Wide Web Consortium (W3C) erarbeitet und standardisiert. Dadurch erfahren auch genau diese Technologien die meiste Verbreitung.

Die Web Ontology Language (OWL) ist die zurzeit populärste Sprache für die Modellierung von Ontologien und damit zur Entwicklung des Semantischen Webs. OWL ist von der Ontologiesprache DAML+OIL abgeleitet und baut auf RDF/RDFS auf. Das bedeutet, dass die offizielle Austausch-Syntax RDF ist. OWL wird auf dem Semantischen Web Konzept oberhalb von XML angesiedelt. Mit OWL werden, genau wie mit RDFS, Terme einer Domäne und deren Beziehungen formal beschrieben. Allerdings bietet OWL im Vergleich zu RDFS weitaus komplexere Funktionen zum Beschreiben der Beziehungen. Allgemein liegt der Unterschied zwischen OWL und RDFS darin, dass sich in OWL Konzepte deutlicher spezifizieren lassen, wodurch ein höherer Abstraktionsgrad entsteht. Des Weiteren können mit Hilfe von Reasonern, welche OWL anstelle von RDFS verarbeiten, bessere logische Schlussfolgerungen geschlossen werden, da sich in OWL logische Konstrukte erstellen lassen, die mit RDFS nicht möglich sind. Die Web Ontology Language existiert in drei verschiedenen Versionen.

Dazu wurden die Sprachebenen OWL-Lite, OWL-DL und OWL-Full definiert. Für den Einsatz von OWL-Lite/DL wurden Einschränkungen definiert, welche die Entwicklung von Werkzeugen erleichtern. Das Ziehen von logischen Schlussfolgerungen basiert in OWL allgemein auf dem Konzept der so genannten Open World Assumption – kurz OWA. Die Open World Assumption (Offene-Welt-Annahme) bedeutet, dass ein Reasoner nicht annimmt, dass etwas nicht existiert, solange nicht explizit definiert wurde, dass es nicht existiert. Allgemein ausgedrückt gilt, dass, solange etwas nicht als zutreffend ausgesagt wurde, ein Reasoner nicht annimmt, dass es unzutreffend ist – es wird lediglich angenommen, dass das Wissen noch nicht zur Wissensbasis hinzugefügt wurde. Dadurch kann es in OWL vorkommen, dass keine Rückgabemenge gefunden wird. Dabei besteht die Gefahr, eine unendlich oder zumindest sehr lange dauernde Rechenoperation anzustoßen.

Serialisierungen[Bearbeiten]

Das optimale Serialisieren von RDF-basierten Beschreibungen ist kein triviales Problem, so dass zum einen ständig einfachere Notationen erfunden werden, wie z. B. N3, und zum anderen eine weite Verbreitung nicht von heute auf morgen stattfindet. Diese Erschwernis ist auch Hand in Hand mit einer fehlenden sofortigen „Belohnung“ der Mühen einer Metadatenauszeichnung zu sehen. Das World Wide Web ist v. a. deshalb so schnell gewachsen, weil HTML einfach ist und die Publikation desselben durch eine sofortige, weltweite Verfügbarkeit im Web belohnt wird.

Verwandte Standards[Bearbeiten]

Ein ähnliches Konzept für die Wissensrepräsentation stellt z.B. der ISO-Standard Topic Maps (TM) dar. Im Gegensatz zu RDF sind Topic Maps nicht an ein spezielles Serialisierungsformat (wie RDF) gebunden. Ein Hauptunterschied zwischen RDF und Topic Maps besteht in der Semantik der Assoziationen. Während in RDF Assoziationen immer gerichtet sind, sind sie im Topic-Maps-Standard ungerichtet und rollenbasiert.

Kritik[Bearbeiten]

Das Semantic Web wird oft als zu kompliziert und zu akademisch beschrieben. Bekannte Kritiken sind:

  • Clay Shirky, Ontology is Overrated: Ontologien funktionieren schon nicht mehr bezogen auf Bibliotheken, aber sie auf das ganze Web auszudehnen ist hoffnungslos. Ontologien sind zu stark auf eine bestimmte Sichtweise hin ausgerichtet, sind zu sehr top-down erstellt (im Gegensatz zu den im Web 2.0 entstandenden Folksonomien), und die formale Grundlage von Ontologien ist zu strikt und zu unflexibel. Da das Semantische Web auf Ontologien aufbaut, kann es die Probleme von Ontologien nicht umgehen.
  • Aaron Swartz, The Programmable Web: Swartz sieht den Fehler des Semantic Web in der vorzeitigen Standardisierung von nicht ausreichend gereifter Technologie, und in der übermäßigen Komplexität der Standards (wobei er insbesondere XML attackiert, und etwa mit der Einfachheit von JSON vergleicht. Das besondere an Swartz' Kritik ist dass er die Technologien außerordentlich gut versteht und sich die Ziele des Semantic Web herbeisehnt, aber die tatsächlich verwendeten Standards und die Prozesse, die zu deren Entstehung führten, für ungenügend befindet.

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

Weblinks[Bearbeiten]

Konferenzen

Zeitschriften

Webcast Video

Werkzeuge

Einzelnachweise und Anmerkungen[Bearbeiten]

  1. Tim Berners-Lee, James Hendler, Ora Lassila: The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. In: Scientific American, 284 (5), S. 34–43, May 2001 (dt.: Mein Computer versteht mich. In: Spektrum der Wissenschaft, August 2001, S. 42–49)
  2. John Markoff: Entrepreneurs See a Web Guided by Common Sense. New York Times vom 12. September 2006
  3. Robert Tolksdorf: Web 3.0 – die Dimension der Zukunft. Der Tagesspiegel vom 31. August 2007