Latent Dirichlet Allocation

Eine gesichtete Version dieser Seite, die am 23. Februar 2016 freigegeben wurde, basiert auf dieser Version.

Latent Dirichlet allocation (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan im Jahre 2003 vorgestelltes generatives Wahrscheinlichkeitsmodell für Dokumente wie Text- oder Bildkorpora. Dabei wird jedes Korpuselement (oft Dokument genannt) als eine Mischung von verschiedenen zugrundeliegenden Themen (eng. latent topics) betrachtet. Jedes sichtbare Wort im Dokument ist wiederum einem oder mehreren Themen zugeordnet. Diese Themen, deren Anzahl zu Beginn festgelegt wird, erklären Ähnlichkeiten zwischen Dokumenten. So wären mögliche Themen in Bildkorpora zum Beispiel Himmel, Wiese oder Straße; in Textkorpora abstraktere Inhalte, wie Sport, Politik oder Bildung.

LDA wird u.a. zur Dokumentmodellierung, Textklassifikation oder dem Finden von neuen Inhalten in Textkorpora eingesetzt. Andere Anwendungen finden sich im Bereich der Bioinformatik.

Siehe auch

Dirichlet-Verteilung

Literatur

David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent dirichlet allocation. In: Journal of Machine Learning Research, Jg. 3 (2003), S. 993–1022, ISSN 1532-4435
David M. Blei: Probabilistic Topic Modelsin: communications of the ACM, (2013), vol 55/4, S. 77-84.

Weblinks

LDA Implementierung in C von David Blei.

Latent Dirichlet Allocation

Siehe auch

Literatur

Weblinks

Navigationsmenü

Suche