Latent Dirichlet Allocation

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Latent Dirichlet allocation (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan im Jahre 2002 vorgestelltes generatives Wahrscheinlichkeitsmodell für Dokumente wie Text- oder Bildkorpora. Dabei wird jedes Korpuselement (oft Dokument genannt) als eine Mischung von verschiedenen zugrundeliegenden Themen (eng. latent topics) betrachtet. Jedes sichtbare Wort im Dokument ist wiederum einem oder mehreren Themen zugeordnet. Diese Themen, deren Anzahl zu Beginn festgelegt wird, erklären Ähnlichkeiten zwischen Dokumenten. So wären mögliche Themen in Bildkorpora zum Beispiel Himmel, Wiese oder Straße; in Textkorpora abstraktere Inhalte, wie Sport, Politik oder Bildung.

LDA wird u.a. zur Dokumentmodellierung, Textklassifikation oder dem Finden von neuen Inhalten in Textkorpora eingesetzt. Andere Anwendungen finden sich im Bereich der Bioinformatik.

Siehe auch[Bearbeiten]

Quellen[Bearbeiten]