Latent Dirichlet Allocation

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Latent Dirichlet allocation (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan im Jahre 2003 vorgestelltes generatives Wahrscheinlichkeitsmodell für „Dokumente“.[1] Das Modell ist identisch zu einem 2000 publizierten Modell zur Genanalyse von J. K. Pritchard, M. Stephens und P. Donnelly.[2] Dokumente sind in diesem Fall gruppierte, diskrete und ungeordnete Beobachtungen (im Folgenden „Wörter“ genannt). In den meisten Fällen werden Textdokumente verarbeitet, in denen Wörter gruppiert werden, wobei die Wortreihenfolge keine Rolle spielt. Es können aber auch z. B. Pixel aus Bildern verarbeitet werden.

Generierender Prozess[Bearbeiten | Quelltext bearbeiten]

LDA modelliert Dokumente durch einen Prozess:

Zunächst wird die Anzahl der Themen durch den Benutzer festgelegt.

Die Dokumentensammlung enthält unterschiedliche Terme, die das Vokabular bilden. Zunächst werden Multinomialverteilungen über alle Terme aus Dirichlet-Verteilungen gezogen, diese Verteilungen werden „Themen“ (englisch topics) genannt.

Für jedes Dokument wird eine Verteilung über die Themen aus einer Dirichlet-Verteilung gezogen. Ein Dokument enthält also mehrere Themen. Durch eine generierende Dirichlet-Verteilung mit Parametern kann die Annahme ausgedrückt werden, dass Dokumente nur wenige Themen enthalten. Diese Annahme ist die einzige Neuerung von LDA im Vergleich zu vorherigen Modellen[3] und hilft bei der Auflösung von Mehrdeutigkeiten (wie etwa beim Wort „Bank“). Die Steigerung der Themen-Qualität durch die angenommene Dirichlet-Verteilung der Themen ist deutlich messbar.

Anschließend wird für jedes Wort aus einem Dokument ein Thema gezogen und aus diesem Thema ein Term.

Eigenschaften[Bearbeiten | Quelltext bearbeiten]

In LDA wird jedes Dokument als eine Mischung von verborgenen Themen (engl. latent topics) betrachtet. Jedes Wort im Dokument ist einem Thema zugeordnet. Diese Themen, deren Anzahl zu Beginn festgelegt wird, erklären das gemeinsame Auftreten von Wörtern in Dokumenten. So kommen in Zeitungsartikeln die Wörter „Euro, Bank, Wirtschaft“ oder „Politik, Wahl, Parlament“ jeweils häufig gemeinsam vor. Diese Mengen an Wörtern haben dann jeweils eine hohe Wahrscheinlichkeit in einem Thema. Wörter können auch in mehreren Themen eine hohe Wahrscheinlichkeit haben.

LDA wird u. a. zur Analyse großer Textmengen, zur Textklassifikation, Dimensionsreduzierung oder dem Finden von neuen Inhalten in Textkorpora eingesetzt. Andere Anwendungen finden sich im Bereich der Bioinformatik zur Modellierung von Gensequenzen.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. David M. Blei, Andrew Y. Ng, Michael I Jordan: Latent Dirichlet Allocation. In: Journal of Machine Learning Research. 3, Nr. 4–5, January 2003, S. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993.
  2. J. K. Pritchard, M. Stephens, P. Donnelly: Inference of population structure using multilocus genotype data. In: Genetics. 155, Nr. 2, June 2000, ISSN 0016-6731, S. 945–959.
  3. Mark Girolami: On an Equivalence between PLSI and LDA. In: Proceedings of SIGIR 2003. Association for Computing Machinery, 2003. ISBN 1-58113-646-3