Normalisierte Google-Distanz

Eine gesichtete Version dieser Seite, die am 1. April 2013 freigegeben wurde, basiert auf dieser Version.

Einer Theorie nach kann die normalisierte Google-Distanz (engl. normalized Google distance, kurz NGD) als statistische Größe für die semantische Nähe zweier Begriffe oder semantischer Konzepte dienen. Sie wird über die Anzahl der Treffer ermittelt, die für zwei in die Suchmaschine Google eingegebene Begriffe gefunden werden, sprich die Anzahl der Dokumente, welche beide Begriffe enthalten. Die NGD liegt normalerweise zwischen 0 und 1, je geringer sie ist, desto enger hängen zwei Begriffe zusammen.

Ermittlung

Gibt man einen Begriff, beispielsweise „Pferd“, in die Suchmaschine Google ein, erhält etwa 12.300.000 indexierte Seiten (Stand: September 2007). Für einen weiteren Begriff, zum Beispiel „Reiter“, sind es 13.900.000 Seiten. Kombiniert man die Begriffe, werden etwa 1.690.000 Seiten gefunden. Für das gemeinsame Auftreten der Begriffe „Pferd“ und „Bart“ werden zwar immer noch 262.000 Seiten aufgeführt, es ist jedoch deutlich, dass „Pferd“ und „Reiter“ enger zusammenhängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten dieser Begriffe. Im Vergleich zur Gesamtmenge der indexierten Seiten (etwa 8.000.000.000) ergibt dies die NGD.

Man definiert folgende Formel für die NGD zweier Begriffe $x$ und $y$ ^[1]:

NGD(x,y)={\frac {\max[{\log f(x),\log f(y)]}-\log f(x,y)}{\log M-\min[{\log f(x),\log f(y)}]}}

Wobei $f(x)$ die Anzahl der Treffer für einen gewissen Begriff $x$ und $M$ die Gesamtanzahl der indexierten Seiten benennt. $NGD(x,y)$ ist nicht definiert für den Sonderfall $f(x)=f(y)=0$ . Die NGD von „Pferd“ und „Reiter“ beträgt ungefähr 0,307, die NGD von „Pferd“ und „Bart“ ungefähr 0,700.

Praktische Anwendungsbereiche

Die niederländische Wissenschaftler Paul Vitanyi und der amerikanische Wissenschaftler Rudi Cilibrasi glauben, mit diesem Verfahren einer Künstlichen Intelligenz die Bedeutung von Begriffen automatisch beibringen zu können. Eine von Cilibrasi entwickelte Open Source Software mit dem Namen Complearn konnte mit Hilfe der NGD bereits Farben von Zahlen trennen oder niederländische Maler anhand der Titel ihrer Werke gruppieren.

Weitere mögliche Anwendungen wären etwa auch in einer Übersetzungssoftware zu finden.

Einzelnachweise

↑ Vitanyi, Cilibrasi: Automatic Meaning Discovery Using Google (arXiv:cs/0412098v3, englisch; PDF-Datei; 184 kB)

Quellen

Computer ergooglen die Bedeutung von Worten
Google's search for meaning (englisch)

[1] Vitanyi, Cilibrasi: Automatic Meaning Discovery Using Google (arXiv:cs/0412098v3, englisch; PDF-Datei; 184 kB)

[1]

Normalisierte Google-Distanz

Inhaltsverzeichnis

Ermittlung

Praktische Anwendungsbereiche

Verwandte Verfahren

Einzelnachweise

Quellen

Navigationsmenü

Normalisierte Google-Distanz

Ermittlung

Praktische Anwendungsbereiche

Verwandte Verfahren

Einzelnachweise

Quellen

Navigationsmenü

Suche