Semantisches Web

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Das Semantische Web (engl. Semantic Web) ist ein Konzept bei der Entwicklung des World Wide Webs und des Internets. Im Rahmen zur Weiterentwicklung zum Internet der Dinge und Ubiquitous Computing wird es erforderlich, dass Maschinen die von Menschen zusammengetragenen Informationen verarbeiten können. All die in menschlicher Sprache ausgedrückten Informationen im Internet sollen mit einer eindeutigen Beschreibung ihrer Bedeutung (Semantik) versehen werden, die auch von Computern verstanden oder zumindest verarbeitet werden kann. Die maschinelle Verwendung der Daten aus dem von Menschen geflochtenen Netz der Daten ist nur möglich, wenn die Maschinen deren Bedeutung eindeutig zuordnen können; nur dann stellen sie Informationen dar.

Das semantische Web ist eine Instanz von Semantischen Netzen. Als Instanz ist das Semantische Web außerdem eine Erweiterung des World Wide Web. Ziel des Semantischen Webs ist es, die Bedeutung von Informationen für Computer verwertbar zu machen und damit automatisch für die interessierten Nutzer im Zuge einer Abfrage zu ordnen. Die Informationen im Web sollen von Maschinen interpretiert und automatisch weiterverarbeitet werden können. Informationen über Orte, Personen und Dinge sollen mit Hilfe des Semantischen Webs auf der Basis der Inhalte miteinander in Beziehung gesetzt werden können.

Beispiel: <Stadt>Dresden</Stadt> liegt an der <Fluss>Elbe</Fluss>. <Familienname>Paul Schuster</Familienname> wurde <Geburtsdatum>1950</Geburtsdatum> in <Geburtsort>Dresden</Geburtsort> geboren.

Anwendungen[Bearbeiten]

Bei der Verknüpfung der Informationen in einem Semantischen Web können neue Zusammenhänge entdeckt werden, die zuvor nicht erkennbar waren (siehe Serendipity-Effekt).

  • für Konsumenten: Bei einer Reise etwa würden Wetterdaten und Staumeldungen in Bezug zu Informationen über mögliche Haltestellen und bekannte Vorlieben des Reisenden gesetzt werden.
  • in der Technik: Verwandte Lösungen werden in Beziehung gesetzt, um mögliche neue Ansätze zu bestimmen.
  • in der Wissenschaft: Nicht strukturierte Texte sollen inhaltlich bewertet und einander zugeordnet werden.
  • im Gesundheitswesen: Publikationen sollen hinsichtlich der Nebenwirkungen oder gleichzeitiger Symptome ausgewertet werden.
  • für Einkäufer: Vergleichbare Angebote sollen hinsichtlich aller abgefragten Daten in Bezug gesetzt werden.

Geschichte[Bearbeiten]

Das Konzept beruht auf einem Vorschlag von Tim Berners-Lee,[1] dem Begründer des World Wide Web.

In Anlehnung an den Begriff Web 2.0 spricht man nach John Markoff von Web 3.0, wenn zu den Konzepten des Web 2.0 noch die Konzepte des semantischen Web hinzukommen.[2][3]

Grundlagen[Bearbeiten]

Während das World Wide Web eine Möglichkeit darstellt, Daten miteinander zu vernetzen, zeigt das Semantic Web einen Weg auf, um Informationen auf der Ebene ihrer Bedeutung miteinander zu verknüpfen. Die Inhalte des World Wide Web können derzeit nur von Menschen verstanden und interpretiert werden. Ob es sich bei einem Textstück um einen Vornamen, einen Nachnamen, den Namen einer Stadt oder eines Unternehmens oder eine Adresse handelt, ist der Struktur der Internetseiten nicht zu entnehmen. Das behindert die maschinelle Verarbeitung der Inhalte, die angesichts der rasch wachsenden Menge an zur Verfügung stehenden Informationen wünschenswert wäre.

Das Semantische Web soll die Lösung für diese Probleme darstellen. Die Daten in einem Semantischen Web sind strukturiert und in einer Form aufbereitet, welche es Computern ermöglicht, sie entsprechend ihrer inhaltlichen Bedeutung zu verarbeiten. Zudem erlaubt ein Semantisches Web Computern (bei Realisierung des Konzeptes), aus den vielen Informationen der weltweiten Daten Wissen herzuleiten und neues Wissen zu generieren. Ursprünge des Semantischen Web liegen auch im Forschungsgebiet der Künstlichen Intelligenz.

In der Informatik steht man in vielen Bereichen vor der Aufgabe, Erkanntes oder Erdachtes zu repräsentieren und Wissen zu vermitteln, z. B. über Fakten, Sachverhalte oder Regeln in einem technischen Anwendungsbereich, in einem Geschäftsprozess oder in einem juristischen Verfahren oder über die Inhalte von Dokumenten oder Webseiten. Menschen können sich gespeichertes Wissen zunutze machen, indem sie auf ihr Grund- und Kontextwissen des jeweiligen Wissensbereichs zurückgreifen, Lehrbücher, Regelwerke, Lexika und Schlagwortregister verwenden und mit den gespeicherten Inhalten verbinden. Sollen dagegen Automaten Such-, Kommunikations- und Entscheidungsaufgaben in Bezug auf das gespeicherte Wissen übernehmen oder Daten austauschen, die selbst Information darüber enthalten, wie sie zu strukturieren und zu interpretieren sind, so benötigen sie dazu eine Repräsentation der zugrunde liegenden Begriffe und deren Zusammenhänge. (Siehe dazu auch: Semantische Lücke)

Wissensrepräsentation[Bearbeiten]

Eine Möglichkeit zur Lösung dieses Problems zeigt das Konzept der Wissensrepräsentation – auch als Knowledge Representation bezeichnet. Entsprechende Konzepte werden für das Semantische Web verwendet. Eine Wissensrepräsentation beschreibt einen Wissensbereich – auch als Knowledge Domain bezeichnet – mit Hilfe von Standards und definierten Beziehungen und gegebenenfalls auch von Ableitungsregeln und den entsprechenden bibliografischen Nachweisen. Das Semantische Web geht ähnlich wie eine Wissensbasis ohne Grenzen, aber mit Attributen vor, um alle verfügbaren Quellen miteinander auf semantischer Ebene zu verknüpfen.

Die Wissensrepräsentation setzt sich aus drei Bereichen anderer wissenschaftlicher Felder zusammen:

  • Logik stellt die formale Struktur bereit, um Regeln zu formulieren, mit deren Hilfe das Computersystem Rückschlüsse bilden kann.
  • Ontologien definieren die Objekte, die in einem bestimmten Umfeld existieren.
  • Berechenbarkeit ist eine Eigenschaft einer Wissensbasis, die diese praxistauglich werden lässt.

Ohne Logik ist eine Wissensrepräsentation unklar, da dann keine Kriterien existieren, um zu prüfen, ob bestimmte Aussagen überflüssig, redundant oder sogar inkonsistent sind. Ohne eine Ontologie können die Aussagen nur schwer bestimmt werden und sind verwirrend, da deren linguistische Attribute nicht spezifiziert wurden. Es ist nicht sinnvoll, die beiden wissenschaftlichen Felder Logik und Ontologie auf einem Computersystem zu implementieren, ohne eine berechenbare Bewertung vorzunehmen.

Konzepte[Bearbeiten]

Im Unterschied zum Information-Retrieval mit Informationsextraktion (IR/IE), das auf unstrukturierten Daten operiert, setzt das Semantische Web Annotationen (Metadaten) für den Aufbau der Wissensrepräsentation voraus. Die Bedeutung der dargebotenen Inhalte wird also mit Hilfe einer Auszeichnungssprache explizit dazugeschrieben und nicht erst später heuristisch interpretiert wie in der Computerlinguistik. Die Annotation geschieht unter Einsatz von festgelegten Vokabularien und Ontologien, beispielsweise mittels RDF oder OWL.

Im Folgenden werden einzelne Komponenten näher untersucht.

Logo des Gremiums zur Standardisierung des WWW

Annotation[Bearbeiten]

Eine Annotation von HTML/XML-Seiten im Web geschieht z. B. durch die Wissens-/Ontologie-Repräsentationssprachen (RDF) oder der darauf aufbauenden Web Ontology Language (OWL). Was möchte man damit erreichen?

Zum einen geht es darum, bessere Kategorisierungsmöglichkeiten zur Verfügung zu stellen. Dies soll durch die Bedeutung von WWW-Links mittels Annotation nähergebracht werden:

  • Führt dieser Link tatsächlich zur Homepage des Autors?
  • Führt der Link auch zu einem übergeordneten Thema?
  • Hat der Link vielleicht einen ganz anderen Charakter wie z. B. der „Anmelden“-Link bei Wikis?

Zum anderen soll es ermöglicht werden, mittels Annotation Schlussfolgerungen zu treffen. Beispielsweise besagt die Annotation einer Webseite, dass sie sich mit „Fußball“ beschäftigt. Aus der verwendeten Ontologie würde dann hervorgehen, dass es sich bei „Fußball“ um eine bestimmte „Sportart“ handelt. Man käme also zu dem Schluss, dass die Website das allgemeinere Thema „Sport“ behandelt, obwohl dies nicht ausdrücklich in den Metadaten hinterlegt wurde.

Bei einer entsprechenden Begriffswahl in der Annotation ließe sich somit ein hoher Automatisierungsgrad bei der Verarbeitung von Websites erzielen. So wäre es sehr wünschenswert, wenn in naher Zukunft Semantische Suchmaschinen durch die Implementierung Semantischer Netze auch komplexere Anfragen direkt beantworten könnten. Das Ergebnis der Suchanfrage „Wie viele Tore hat Diego Maradona bei der Fußball-WM im Jahre 1982 geschossen?“ würde dann lediglich diese eine benötigte Information enthalten.

Ontologie[Bearbeiten]

Zur Darstellung komplexer Wissensbeziehungen wird im Fachbereich Informatik der Begriff Ontologie verwendet. Im Gegensatz zur Taxonomie – die einfache Hierarchien verwendet – verkörpert die Ontologie ein Netz von Hierarchien, in dem Informationen über logische Beziehungen miteinander verknüpft sind oder sein könnten. Diese Beziehungen beruhen auf Eigenschaften, die den Informationen spezifisch zugewiesen werden müssen. Elemente, die auf diese Weise zusammenhängen, sind dann semantisch erzeugt. Ontologien bestehen aus einer Vielzahl von Komponenten wie Begriff (Konzept), Instanzen und Relationen.

Techniken[Bearbeiten]

Semantic Web Stack des W3C

Kurzübersicht relevanter W3C-Empfehlungen[Bearbeiten]

Im Folgenden werden verschiedene Sprachen, die für den Aufbau der Wissensrepräsentation im Semantischen Web einsetzbar sind, erläutert:

XML und RDF[Bearbeiten]

Oft wird der Begriff des Semantischen Webs nur mit RDF (Resource Description Framework) in Verbindung gebracht, obwohl die Vision des Semantischen Webs natürlich andere Repräsentationen nicht ausschließt. Im Jahre 2001 schreiben Berners-Lee et al. in einem Artikel: das Semantische Web ist eine Erweiterung des herkömmlichen Webs, in der Informationen mit eindeutigen Bedeutungen versehen werden, um die Arbeit zwischen Mensch und Maschine zu erleichtern („The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation“, Scientific American (2001–05) ).

RDF als Auszeichnungssprache für Metadaten basiert auf sog. Tripeln oder Aussagen (englisch: statements) aus Subjekt, Prädikat (oder Eigenschaft, englisch property) und Objekt, die als Erweiterung zu Schlüssel-Wert-Paaren zu sehen sind. Während Schlüssel-Wert-Paare nur einer beliebigen Eigenschaft einen beliebigen Wert zuweisen können (z. B. Kontaktadresse = Musterstraße) kann mit einem Tripel auf semantische Art ein Objekt, Konzept oder Wert mit einem anderen in Beziehung gesetzt werden. Ein Beispiel für ein solches Tripel ist Musterstraße ist Kontaktadresse von Max Mustermann, hier ist Musterstraße das Subjekt, ist Kontaktadresse von das Prädikat und Max Mustermann das Objekt. Beliebigen Ressourcen (typischerweise Webseiten) werden bestimmte Werte, wie z. B. Autor, Erstelldatum zugewiesen, wobei eben die URL der Webseite das Subjekt, die Eigenschaft „Autor“ das Prädikat und schließlich der Name des Autors das Objekt darstellt. Da idealerweise für die Eigenschaften bekanntes und weitverbreitetes Vokabular benutzt wird, wie z. B. das Dublin Core Element Set (DC), das eindeutige URIs für die wichtigsten Metadatentypen bereitstellt, sind die Informationen der so ausgezeichneten Ressourcen auch für Computerprogramme als Metadaten identifizierbar und entsprechend interpretierbar, also z. B. ein Autor als eben solcher.

Das Konzept dieser RDF-Tripel ist stark an Conceptual Graphs (CG) (John F. Sowa) angelehnt, das 1976 publiziert wurde (siehe [1]). Das Konzept der Conceptual Graphs erwies sich aber als zu wenig formal und zu ungenau. Das optimale Serialisieren von RDF-basierten Beschreibungen ist kein triviales Problem, so dass zum einen ständig einfachere Notationen erfunden werden, wie z. B. N3, und zum anderen eine weite Verbreitung nicht von heute auf morgen stattfindet. Diese Erschwernis ist auch Hand in Hand mit einer fehlenden sofortigen „Belohnung“ der Mühen einer Metadatenauszeichnung zu sehen. Das World Wide Web ist v. a. deshalb so schnell gewachsen, weil HTML einfach ist und die Publikation desselben durch eine sofortige, weltweite Verfügbarkeit im Web belohnt wird.

RDF-Schema (RDF Vocabulary Description Language)[Bearbeiten]

Mit dem Resource-Description-Framework-Modell erhält man die Möglichkeit, einzelne XML-konforme Dokumente zu erzeugen, welche Objekte anhand von Statements beschreiben. Durch die geschickte Wahl der Ressource-Namen erhält man Informationen über das jeweilige Objekt. Um eine Gruppe von ähnlichen Objekten, z. B. Bücher, alle mit den gleichen Eigenschaften auszuzeichnen, bietet RDF keine Möglichkeit um einen „Rahmen“ für alle diese Objekte zu definieren. Für diese Zwecke wurde die RDF-Beschreibungssprache – RDF-Schema (RDFS, offiziell: „RDF Vocabulary Description Language“) – definiert. Diese stellt die Möglichkeit bereit, Begriffe und die damit verbundenen Elemente semantisch zueinander in Beziehung zu setzen. Zum Beispiel kann mit RDFS festgelegt werden, dass die Eigenschaft title dazu verwendet wird, um den Titel eines Buchs zu beschreiben. In RDF-Schema wird für jede Eigenschaft festgelegt, welche Werte erlaubt sind, was diese für eine Bedeutung hat, welche Beziehungen zu anderen Eigenschaften bestehen und welche Arten von Ressourcen diese Eigenschaft verwenden dürfen. Dabei wurde vom W3C nicht ein allgemein gültiges Schema definiert, in dem verschiedene Klassen und Eigenschaften festgelegt werden, sondern es wird in einer „Scheme-Definition Language“ beschrieben, mit deren Hilfe die eigentlichen Schemata definiert werden können. Diese Schemata werden auch als Vokabulare bezeichnet. In den letzten Jahren haben sich RDF-Schema-Gemeinschaften gebildet, die die Aufgabe haben, RDF-Schema-Metadatenmodelle zu entwerfen, z. B. der Dublin Core. Durch diese dezentralisierte Vorgehensweise wird eingestanden, dass es unmöglich ist, ein einzelnes für alle Gebrauchsmöglichkeiten passendes Schema zu entwickeln.

Web-Ontologiesprache[Bearbeiten]

Das Semantische Web sowie RDF/OWL wurden vom World Wide Web Consortium (W3C) erarbeitet und standardisiert. Dadurch erfahren auch genau diese Technologien die meiste Verbreitung.

Die Web Ontology Language (OWL) ist die zurzeit populärste Sprache für die Modellierung von Ontologien und damit zur Entwicklung des Semantischen Webs. OWL ist von der Ontologiesprache DAML+OIL abgeleitet und baut auf RDF/RDFS auf. Das bedeutet, dass die offizielle Austausch-Syntax RDF ist. OWL wird auf dem Semantischen Web Konzept oberhalb von XML angesiedelt. Mit OWL werden, genau wie mit RDFS, Terme einer Domäne und deren Beziehungen formal beschrieben. Allerdings bietet OWL im Vergleich zu RDFS weitaus komplexere Funktionen zum Beschreiben der Beziehungen. Allgemein liegt der Unterschied zwischen OWL und RDFS darin, dass sich in OWL Konzepte deutlicher spezifizieren lassen, wodurch ein höherer Abstraktionsgrad entsteht. Des Weiteren können mit Hilfe von Reasonern, welche OWL anstelle von RDFS verarbeiten, bessere logische Schlussfolgerungen geschlossen werden, da sich in OWL logische Konstrukte erstellen lassen, die mit RDFS nicht möglich sind. Die Web Ontology Language existiert in drei verschiedenen Versionen.

Dazu wurden die Sprachebenen OWL-Lite, OWL-DL und OWL-Full definiert. Für den Einsatz von OWL-Lite/DL wurden Einschränkungen definiert, welche die Entwicklung von Werkzeugen erleichtern. Das Ziehen von logischen Schlussfolgerungen basiert in OWL allgemein auf dem Konzept der so genannten Open World Assumption – kurz OWA. Die Open World Assumption (Offene-Welt-Annahme) bedeutet, dass ein Reasoner nicht annimmt, dass etwas nicht existiert, solange nicht explizit definiert wurde, dass es nicht existiert. Allgemein ausgedrückt gilt, dass, solange etwas nicht als zutreffend ausgesagt wurde, ein Reasoner nicht annimmt, dass es unzutreffend ist – es wird lediglich angenommen, dass das Wissen noch nicht zur Wissensbasis hinzugefügt wurde. Dadurch kann es in OWL vorkommen, dass keine Rückgabemenge gefunden wird. Dabei besteht die Gefahr, eine unendlich oder zumindest sehr lange dauernde Rechenoperation anzustoßen.

Verwandte Standards[Bearbeiten]

Ein ähnliches Konzept für die Wissensrepräsentation stellt z.B. der ISO-Standard Topic Maps (TM) dar. Im Gegensatz zu RDF sind Topic Maps nicht an ein spezielles Serialisierungsformat (wie RDF) gebunden. Ein Hauptunterschied zwischen RDF und Topic Maps besteht in der Semantik der Assoziationen. Während in RDF Assoziationen immer gerichtet sind, sind sie im Topic-Maps-Standard ungerichtet und rollenbasiert.

Projekte mit Bezug zum Semantischen Web[Bearbeiten]

Techniken des Semantischen Web beginnen sich nur langsam und teilweise durchzusetzen. Anwendungsbeispiele sind:

  • Theseus ein Forschungsprogramm der Deutschen Bundesregierung
  • Swoogle ist eine Suchmaschine für das semantische Web
  • FOAF: Friend-of-a-Friend-Ontologie zur Beschreibung von Personen
  • DBpedia: extrahiert strukturierte Informationen aus der Wikipedia und stellt sie anderen Webservices zur Verfügung
  • SemanticGov: EU-gefördertes Projekt zur Realisierung einer EU-weiten behördlichen Infrastruktur auf Basis von Semantic Web Services
  • KiWi: ein Framework zur Erstellung semantischer sozialer Anwendungen
  • GoPubMed ist die erste semantische Suchmaschine für die Life Sciences. Sie bedient sich der GeneOntology (GO) und der Medical Subjects Headings (MeSH) bei der semantischen Filterung von Abstracts aus MEDLINE.
  • SemProM: BMBF-gefördertes Projekt zur entwicklung von digitalen Objektgedächtnissen basierend auf semantischen Technologien
  • Medpilot und Greenpilot: Internet-basierte Suchportale der Deutschen Zentralbibliothek für Medizin, die semantische Technologien verwenden
  • NEPOMUK: Open-Source-Software-Spezifikation für semantische Desktops

Werkzeuge[Bearbeiten]

Literatur[Bearbeiten]

Einzelnachweise und Anmerkungen[Bearbeiten]

  1. Tim Berners-Lee, James Hendler, Ora Lassila: The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. In: Scientific American, 284 (5), S. 34–43, May 2001 (dt.: Mein Computer versteht mich. In: Spektrum der Wissenschaft, August 2001, S. 42–49)
  2. John Markoff: Entrepreneurs See a Web Guided by Common Sense. New York Times vom 12. September 2006
  3. Robert Tolksdorf: Web 3.0 – die Dimension der Zukunft. Der Tagesspiegel vom 31. August 2007

Weblinks[Bearbeiten]

Konferenzen

Zeitschriften

Webcast Video

Siehe auch[Bearbeiten]