Normalisierte Google-Distanz

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 1. April 2013 um 02:15 Uhr durch KLBot2 (Diskussion | Beiträge) (Bot: 1 Interwiki-Link(s) nach Wikidata (d:Q1999356) migriert). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Zur Navigation springen Zur Suche springen

Einer Theorie nach kann die normalisierte Google-Distanz (engl. normalized Google distance, kurz NGD) als statistische Größe für die semantische Nähe zweier Begriffe oder semantischer Konzepte dienen. Sie wird über die Anzahl der Treffer ermittelt, die für zwei in die Suchmaschine Google eingegebene Begriffe gefunden werden, sprich die Anzahl der Dokumente, welche beide Begriffe enthalten. Die NGD liegt normalerweise zwischen 0 und 1, je geringer sie ist, desto enger hängen zwei Begriffe zusammen.

Ermittlung

Gibt man einen Begriff, beispielsweise „Pferd“, in die Suchmaschine Google ein, erhält etwa 12.300.000 indexierte Seiten (Stand: September 2007). Für einen weiteren Begriff, zum Beispiel „Reiter“, sind es 13.900.000 Seiten. Kombiniert man die Begriffe, werden etwa 1.690.000 Seiten gefunden. Für das gemeinsame Auftreten der Begriffe „Pferd“ und „Bart“ werden zwar immer noch 262.000 Seiten aufgeführt, es ist jedoch deutlich, dass „Pferd“ und „Reiter“ enger zusammenhängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten dieser Begriffe. Im Vergleich zur Gesamtmenge der indexierten Seiten (etwa 8.000.000.000) ergibt dies die NGD.

Man definiert folgende Formel für die NGD zweier Begriffe und [1]:

Wobei die Anzahl der Treffer für einen gewissen Begriff und die Gesamtanzahl der indexierten Seiten benennt. ist nicht definiert für den Sonderfall . Die NGD von „Pferd“ und „Reiter“ beträgt ungefähr 0,307, die NGD von „Pferd“ und „Bart“ ungefähr 0,700.

Praktische Anwendungsbereiche

Die niederländische Wissenschaftler Paul Vitanyi und der amerikanische Wissenschaftler Rudi Cilibrasi glauben, mit diesem Verfahren einer Künstlichen Intelligenz die Bedeutung von Begriffen automatisch beibringen zu können. Eine von Cilibrasi entwickelte Open Source Software mit dem Namen Complearn konnte mit Hilfe der NGD bereits Farben von Zahlen trennen oder niederländische Maler anhand der Titel ihrer Werke gruppieren.

Weitere mögliche Anwendungen wären etwa auch in einer Übersetzungssoftware zu finden.

Verwandte Verfahren

Ein anderes Verfahren zum Messen der Distanz zweier Informationen, die normalisierte Informationsdistanz (engl. normalized information distance, kurz NID) wurde bereits zuvor von Paul Vitanyi eingeführt, welches die Nähe der Vergleichsobjekte anhand ihrer Eigenschaften analysiert.

Einzelnachweise

  1. Vitanyi, Cilibrasi: Automatic Meaning Discovery Using Google (arXiv:cs/0412098v3, englisch; PDF-Datei; 184 kB)

Quellen