Latent Dirichlet Allocation

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 23. Februar 2016 um 20:36 Uhr durch Aka (Diskussion | Beiträge) (zu großen Zeilenabstand entfernt | ♥). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Zur Navigation springen Zur Suche springen

Latent Dirichlet allocation (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan im Jahre 2003 vorgestelltes generatives Wahrscheinlichkeitsmodell für Dokumente wie Text- oder Bildkorpora. Dabei wird jedes Korpuselement (oft Dokument genannt) als eine Mischung von verschiedenen zugrundeliegenden Themen (eng. latent topics) betrachtet. Jedes sichtbare Wort im Dokument ist wiederum einem oder mehreren Themen zugeordnet. Diese Themen, deren Anzahl zu Beginn festgelegt wird, erklären Ähnlichkeiten zwischen Dokumenten. So wären mögliche Themen in Bildkorpora zum Beispiel Himmel, Wiese oder Straße; in Textkorpora abstraktere Inhalte, wie Sport, Politik oder Bildung.

LDA wird u.a. zur Dokumentmodellierung, Textklassifikation oder dem Finden von neuen Inhalten in Textkorpora eingesetzt. Andere Anwendungen finden sich im Bereich der Bioinformatik.

Siehe auch

Literatur

Weblinks