Latent Dirichlet Allocation
Latent Dirichlet allocation (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan im Jahre 2003 vorgestelltes generatives Wahrscheinlichkeitsmodell für Dokumente wie Text- oder Bildkorpora. Dabei wird jedes Korpuselement (oft Dokument genannt) als eine Mischung von verschiedenen zugrundeliegenden Themen (eng. latent topics) betrachtet. Jedes sichtbare Wort im Dokument ist wiederum einem oder mehreren Themen zugeordnet. Diese Themen, deren Anzahl zu Beginn festgelegt wird, erklären Ähnlichkeiten zwischen Dokumenten. So wären mögliche Themen in Bildkorpora zum Beispiel Himmel, Wiese oder Straße; in Textkorpora abstraktere Inhalte, wie Sport, Politik oder Bildung.
LDA wird u.a. zur Dokumentmodellierung, Textklassifikation oder dem Finden von neuen Inhalten in Textkorpora eingesetzt. Andere Anwendungen finden sich im Bereich der Bioinformatik.
Siehe auch
Literatur
- David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent dirichlet allocation. In: Journal of Machine Learning Research, Jg. 3 (2003), S. 993–1022, ISSN 1532-4435
- David M. Blei: Probabilistic Topic Modelsin: communications of the ACM, (2013), vol 55/4, S. 77-84.
Weblinks
- LDA Implementierung in C von David Blei.