Markow-Filter
Der Markow-Filter (nach Andrei Andrejewitsch Markow) ist ein Spamfilter basierend auf einem Hidden Markov Model und stellt eine Weiterentwicklung des Bayes-Filters dar. Der Markow-Filter errechnet dabei die Wahrscheinlichkeit, mit der die Wortketten des überprüften Textes zu Wortketten typischer Spamtexte passen. Während bei einem Bayes-Filter die Wahrscheinlichkeit einzelner Wörter errechnet wird, zieht der Markow-Filter Wortketten zur Ermittlung der Wahrscheinlichkeit heran und gewichtet die einzelnen Kombinationsmöglichkeiten. Ähneln die Wortketten des überprüften Textes denen typischer Spamtexte, so gilt der überprüfte Text als Spam.
Inhaltsverzeichnis |
Beispiel für Gewichtung der Kombinationsmöglichkeiten [Bearbeiten]
Am Beispiel des Satzes „Der schnelle braune Fuchs springt ...“ kann man die Kombinationsmöglichkeiten und Gewichtungen 22N im Markow-Filter veranschaulichen:
| Wortkette | Gewichtung | N |
|---|---|---|
| Der | 1 | 0 |
| Der schnelle | 4 | 1 |
| Der <...> braune | 4 | 1 |
| Der <...> <...> Fuchs | 4 | 1 |
| Der schnelle braune | 16 | 2 |
| Der <...> braune Fuchs | 16 | 2 |
| Der schnelle <...> Fuchs | 16 | 2 |
| Der schnelle braune Fuchs | 64 | 3 |
Formale Darstellung der Wahrscheinlichkeitsberechnung in Bayes- und Markow-Filter [Bearbeiten]
Während die Wahrscheinlichkeit aufgrund des Bayes-Filters durch
angegeben wird, gilt für den Markow-Filter
.
Literatur [Bearbeiten]
- Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas. In: Fourth IEEE International Conference on Data Mining (ICDM'04). 2004, S. 347-350, doi:10.1109/ICDM.2004.10031.

.