Hidden Markov Model
Das Hidden Markov Model (HMM) ist ein stochastisches Modell, in dem ein System durch eine Markow-Kette - benannt nach dem russischen Mathematiker A. A. Markow - mit unbeobachteten Zuständen modelliert wird. Ein HMM kann dadurch als einfachster Spezialfall eines dynamischen Bayesschen Netzes angesehen werden.
Die Modellierung als Markow-Kette bedeutet, dass das System auf zufällige Weise von einem Zustand in einen anderen übergeht, wobei die Übergangswahrscheinlichkeiten nur jeweils vom aktuellen Zustand abhängen, aber nicht von den davor eingenommenen Zuständen. Außerdem wird angenommen, dass die Übergangswahrscheinlichkeiten über die Zeit konstant sind. Bei einem HMM werden jedoch nicht diese Zustände selbst von außen beobachtet; sie sind verborgen (engl. hidden). Stattdessen sind jedem dieser inneren Zustände beobachtbare Ausgabesymbole, sogenannte Emissionen, zugeordnet, die je nach Zustand mit gewissen Wahrscheinlichkeiten auftreten. Die Aufgabe besteht meist darin, aus der beobachteten Sequenz der Emissionen zu wahrscheinlichkeitstheoretischen Aussagen über die verborgenen Zustände zu kommen.
Wichtige Anwendungsgebiete sind Spracherkennung, Computerlinguistik und die Bioinformatik, aber unter anderem auch Spamfilter, Gestenerkennung in der Mensch-Maschine-Kommunikation (Robotik), Schrifterkennung und Psychologie.
Inhaltsverzeichnis |
Markow-Ansatz [Bearbeiten]
Gegeben seien zwei zeitdiskrete Zufallsprozesse
und
, von denen nur der letzte beobachtbar sei. Durch ihn sollen Rückschlüsse auf den Verlauf des ersten Prozesses gezogen werden; hierfür wird ein mathematisches Modell benötigt, das die beiden Prozesse miteinander in Beziehung setzt.
Der hier beschriebene Ansatz zeichnet sich durch die folgenden beiden Annahmen aus:
- 1. Markow-Eigenschaft
Der aktuelle Wert des ersten Prozesses hängt ausschließlich vom seinem letzten Wert ab:
- 2. Markow-Eigenschaft
Der aktuelle Wert des zweiten Prozesses hängt ausschließlich vom aktuellen Wert des ersten ab:
Haben die beiden Prozesse nun noch jeweils einen endlichen Wertevorrat, so lässt sich das so gewonnene Modell als probabilistischer Automat auffassen, genauer als Markow-Kette. Man sagt auch
ist ein Markow-Prozess. Angelehnt an den Sprachgebrauch in der theoretischen Informatik - insbesondere der Automatentheorie und der Theorie formaler Sprachen - heißen die Werte des ersten Prozesses Zustände und die des zweiten Emissionen bzw. Ausgaben.
Definition [Bearbeiten]
Ein Hidden Markov Model ist ein 5-Tupel
mit:
der Menge aller Zustände, das sind die möglichen Werte der Zufallsvariablen 
das Alphabet der möglichen Beobachtungen - die Emissionen der 
die Übergangsmatrix zwischen den Zuständen,
gibt dabei jeweils die Wahrscheinlichkeit an, dass vom Zustand
in den Zustand
gewechselt wird
die Beobachtungsmatrix, die
geben die Wahrscheinlichkeit an, im Zustand
die Beobachtung
zu machen
die Anfangsverteilung,
ist die Wahrscheinlichkeit, dass
der Startzustand ist
Ein HMM heiße stationär (oder auch zeitinvariant), wenn sich die Übergangs- und Emissionswahrscheinlichkeiten nicht mit der Zeit ändern. Diese Annahme ist oft sinnvoll, weil auch die modellierten Naturgesetze konstant sind.
Veranschaulichung [Bearbeiten]
Das Bild zeigt die generelle Architektur eines instanziierten HMMs. Jedes Oval ist die Repräsentation einer zufälligen Variable
oder
, welche beliebige Werte aus
bzw.
annehmen kann. Die erste Zufallsvariable ist dabei der versteckte Zustand des HMMs zum Zeitpunkt
, die zweite ist die Beobachtung zu diesem Zeitpunkt. Die Pfeile in dem Trellis-Diagramm bedeuten eine bedingte Abhängigkeit.
Im Diagramm sieht man, dass der Zustand der versteckten Variable
nur vom Zustand der Variable
abhängt, frühere Werte haben keinen weiteren Einfluss. Deshalb ist das Modell ein Markov-Modell 1. Ordnung. Sollten höhere Ordnungen benötigt werden, so können diese durch das Einfügen neuer versteckter Zustände stets auf die 1. Ordnung zurückgeführt werden. Der Wert von
hängt weiter ausschließlich von
ab.
Beispiel [Bearbeiten]
Gefangener im Verlies [Bearbeiten]
Ein Gefangener im Kerkerverlies möchte das aktuelle Wetter herausfinden. Er weiß, dass auf einen sonnigen Tag zu 70 % ein Regentag folgt und dass auf einen Regentag zu 50 % ein Sonnentag folgt. Weiß er zusätzlich, dass die Schuhe der Wärter bei Regen zu 90 % dreckig, bei sonnigem Wetter aber nur zu 60 % dreckig sind, so kann er durch Beobachtung der Wärterschuhe Rückschlüsse über das Wetter ziehen (heißt, er kann die Wahrscheinlichkeit für Regenwetter vs. sonnigem Wetter abschätzen).
DNA-Sequenz: CpG-Inseln aufspüren [Bearbeiten]
Zur Untersuchung von DNA-Sequenzen mit bioinformatischen Methoden kann das HMM verwendet werden. Beispielsweise lassen sich so CpG-Inseln in einer DNA-Sequenz aufspüren. Dabei stellt die DNA-Sequenz die Beobachtung dar, deren Zeichen
bilden das Ausgabealphabet. Im einfachsten Fall besitzt das HMM zwei verborgene Zustände, nämlich CpG-Insel und nicht-CpG-Insel. Diese beiden Zustände unterscheiden sich in ihrer Ausgabeverteilung, so dass zum Zustand CpG-Insel mit größerer Wahrscheinlichkeit Zeichen
und
ausgegeben werden.
Spracherkennung [Bearbeiten]
In der automatischen Spracherkennung mit HMM werden die gesprochenen Laute als versteckte Zustände aufgefasst und die tatsächlich hörbaren Töne als Emission.
Problemstellungen [Bearbeiten]
Im Zusammenhang mit HMMs existieren mehrere grundlegende Problemstellungen.[1][2]
Bestimmen der Modellgröße [Bearbeiten]
Gegeben sind die beobachtbaren Emissionen
. Es ist zu klären, welche Modelleigenschaften, insbesondere welche orthogonale Dimensionalität den Schluss auf die nicht direkt beobachtbaren Zustände erlauben und gleichzeitig eine sinnvolle Berechenbarkeit zulassen. Insbesondere ist zu entscheiden, welche Laufzeit für die Modellrechnungen erforderlich werden darf, um die Verwendbarkeit der Schätzungen zu erhalten.
Implementierung [Bearbeiten]
Die Berechnung der Schätzwerte der nicht beobachtbaren Zustände aus den beobachtbaren Ausgabesequenzen muss die erreichbaren numerischen Genauigkeiten beachten. Weiter müssen Kriterien zur Klassifizierung der statistischen Signifikanz implementiert werden. Bei Verwendung eines HMM für einen bestimmten Merkmalsvektor bestimmt die Signifikanz die Wahrscheinlichkeit einer zutreffenden oder falschen Modellhypothese sowie deren Informationsgehalt (Entropie, Bedingte Entropie) bzw. deren Informationsqualität.
Filtern [Bearbeiten]
Gegeben sei ein HMM
sowie eine Beobachtungssequenz
der Länge
. Gesucht ist die Wahrscheinlichkeit
, dass der momentane verborgene Zustand zum letzten Zeitpunkt
gerade
ist. Ein effizientes Verfahren zur Lösung des Filterungsproblems ist der Forward-Algorithmus.
Prädiktion/Vorhersage [Bearbeiten]
Gegeben sei wieder ein HMM
und die Beobachtungssequenz
sowie ein
. Gesucht ist Wahrscheinlichkeit
, also die Wahrscheinlichkeit, dass sich das HMM zum Zeitpunkt
im Zustand
befindet, falls die betreffende Ausgabe beobachtet wurde. Prädiktion ist dabei gewissermaßen wiederholtes Filtern ohne neue Beobachtungen und lässt sich auch einfach mit dem Forward-Algorithmus berechnen.
Glätten [Bearbeiten]
Erneut seien
,
und ein
gegeben. Gesucht ist die Wahrscheinlichkeit
, also die Wahrscheinlichkeit, dass sich das Modell zu einem früheren Zeitpunkt in einem bestimmten Zustand befand, unter der Bedingung, dass
beobachtet wurde. Mit Hilfe des Backward-Algorithmus kann diese Wahrscheinlichkeit effizient berechnet werden.
Dekodierung [Bearbeiten]
Seien wieder
sowie
gegeben. Es soll die wahrscheinlichste Zustandsfolge aus
bestimmt werden, die eine vorgegebene Ausgabesequenz erzeugt haben könnte. Dieses Problem lässt sich effizient mit dem Viterbi-Algorithmus lösen.
Lernproblem [Bearbeiten]
Gegeben sei nur die Ausgabesequenz
. Es sollen die Parameter eines HMM bestimmt werden, die am wahrscheinlichsten die Ausgabesequenz erzeugen. Dies ist lösbar mit Hilfe des Baum-Welch-Algorithmus.
Interpretationsproblem [Bearbeiten]
Gegeben seien nur die möglichen Ausgaben
. Es sollen die Zustände im Modellsystem und die korrespondierenden Effekte im realen System identifiziert werden, die die Zustandsmenge
des Modells beschreibt[3]. Dazu muss vorweg die Bedeutsamkeit der einzelnen Emissionen bestimmt werden.
Anwendungsgebiete [Bearbeiten]
Anwendung finden HMMs häufig in der Mustererkennung bei der Verarbeitung von sequentiellen Daten, beispielsweise bei physikalischen Messreihen, aufgenommenen Sprachsignalen oder Proteinsequenzen. Dazu werden die Modelle so konstruiert, dass die verborgenen Zustände semantischen Einheiten entsprechen (z. B. Phoneme in der Spracherkennung), die es in den sequentiellen Daten (z. B. Kurzzeit-Spektren des Sprachsignals) zu erkennen gilt. Eine weitere Anwendung besteht darin, für ein gegebenes HMM durch eine Suche in einer Stichprobe von sequentiellen Daten solche Sequenzen zu finden, die sehr wahrscheinlich von diesem HMM erzeugt sein könnten. Beispielsweise kann ein HMM, das mit Vertretern einer Proteinfamilie trainiert wurde, eingesetzt werden, um weitere Vertreter dieser Familie in großen Proteindatenbanken zu finden.
Geschichte [Bearbeiten]
Hidden-Markov-Modelle wurden erstmals von Leonard E. Baum und anderen Autoren in der zweiten Hälfte der 1960er Jahre publiziert. Eine der ersten Applikationen war ab Mitte der 1970er die Spracherkennung. Seit Mitte der 1980er wurden HMMs für die Analyse von Nukleotid- und Proteinsequenzen eingesetzt und sind seitdem fester Bestandteil der Bioinformatik.
Einzelnachweise [Bearbeiten]
- ↑ L. R. Rabiner: A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. (PDF, 2.2 MB) Proceedings of the IEEE, Band 77, Nr. 2, S. 257–286, 1989
- ↑ P. Blunsom: Hidden Markov Models (PDF; 237 kB)
- ↑ S. P. Chatzis: A Variational Bayesian Methodology for Hidden Markov Models
Literatur [Bearbeiten]
- R. Merkl, S. Waack: Bioinformatik interaktiv. Wiley-VCH, 2002, ISBN 3-527-30662-5.
- G. A. Fink: Mustererkennung mit Markov-Modellen: Theorie, Praxis, Anwendungsgebiete. Teubner, 2003, ISBN 3-519-00453-4
- Kai-Fu Lee, Hsiao-Wuen Hon: Speaker-Independent Phone Recognition Using Hidden Markov Models. IEEE Transactions on accoustics, speech and signal processing, Nr. 37, IEEE, November 1989, S. 1641-1648 (IEEE Nr. 8930533, 0096-3518/89/1100-1641).
Weblinks [Bearbeiten]
- R.v. Handel: Hidden Markov Models (PDF, 900 kB) Lecture Notes Princeton University Juli 2008.
- E.G. Schukat-Talamazzini: Spezielle Musteranalysesysteme (PDF, 1.3 MB) Vorlesung im WS 2012/13 an der Universität Jena. Kap. 5
- HMM R-Package zum Modellieren und Analysieren von Hidden-Markov-Modellen, das unter GPL2 frei verfügbar ist
- http://code.google.com/p/jahmm/ HMM Java-Bibliothek, die unter der neuen BSD-Lizenz verfügbar ist.
- http://www.ghmm.org HMM C-Bibliothek, die unter der LGPL frei verfügbar ist


der Menge aller Zustände, das sind die möglichen Werte der 
das 
die
gibt dabei jeweils die
gewechselt wird
die Beobachtungsmatrix, die
geben die Wahrscheinlichkeit an, im Zustand
zu machen
die Anfangsverteilung,
ist die Wahrscheinlichkeit, dass