Diskussion:Mel Frequency Cepstral Coefficients

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Der Artikelanfang müsste überarbeitet werden. Ein Einleitungssatz fehlt, in dem kurz erklärt wird um was es genau geht. Er sollte für jeden nachvollziehbar sein. gruß von --Factumquintus 00:27, 13. Mai 2005 (CEST)[Beantworten]

hab's versucht zu verbessern

Ich habe gerade auch dem Portal:Informatik bescheid gesagt. Vielleicht findet sich da jemand, der den Artikel noch besser verständlicher machen kann, da ich mich selbst in dem Gebiet kaum auskenne. gruß--Factumquintus 00:53, 13. Mai 2005 (CEST)[Beantworten]

MFCC's sind jetzt in der Kategorie Algorithmus. Das ist zwar nicht falsch, aber meiner Meinung nach nicht ganz Passend. MFCC's sind ein Feature/Merkmal, welches sehr oft in der Spracherkennung benutzt wird. -- unbekannt

Ich geben Dir recht, wo passt es besser? Gehoeren die nicht besser in die Mathematik? -- Sparti 13:41, 2. Jun 2005 (CEST)

MFCC ist genormt ;-)[Quelltext bearbeiten]

Liebe Leute, bei allem wissenschaftlichen Eifer, möchte ich Euch darauf hinweisen, dass die Berechnung der MFCC-Merkmale genau GENORMT ist, nämlich in der ETSI-Norm ETSI-ES-201-108. Alle anderen Varianten sind meiner Meinung nach keine echten MFCC-Merkmale.... Vielleicht kann man ein Kapitel "MFCC-ähnliche Merkmale" einführen, oder die allgemeineren Möglichkeiten in den Artikel Cepstrum einarbeiten...

Viele Grüße, Helmut --194.138.12.146 13:42, 29. Apr. 2008 (CEST)[Beantworten]

Begründung für Überarbeiten[Quelltext bearbeiten]

Die Mel Frequency Cepstral Coefficients (MFCC) finden eine Anwendung in der Spracherkennung. Wer ist Mel? Was sind Cepstral-Koeffizienten? Bitte den Begriff auf deutsch erläutern. Ich verstehe den Artikel nicht ganz, habe aber den Eindruck, dass man ihn gut in Cepstrum einarbeiten könnte. --Siehe-auch-Löscher 21:21, 14. Sep 2006 (CEST)

MFCC: Begründung für DCT als letzten Schritt[Quelltext bearbeiten]

Die Begründung für die Verwendung der DCT (statt FFT) -- einfachere Berechnung -- stimmt so nicht. Hauptgrund für die Verwendung der DCT ist, dass diese Tranformation bessere Kompressionseigenschaften hat: Die ersten paar Koeffizienten einer DCT sagen mehr über ein Signal (z.B. Audio) aus, als genau so viele FFT-Koeffizienten.

Logarithmierung[Quelltext bearbeiten]

Da ich mich gerade mit Sprachverarbeitung beschäftige, ist mir aufgefallen, dass die Logarithmierung in verschiedenen Büchern und Papern nie einheitlich so gemacht wird, wie es hier im Artikel steht. Die Variante hier besagt Logarithmierung vor der Mel-Filterbank. Das hiesse jedoch eine Summe von Logarithmen zu bilden. In meinem Projekt und der Literatur auf welcher dieses aufbaut, wird die Logarithmierung jedoch erst nach der Mel-Filterbank durchgeführt. Dies führt zum Logarithmus einer Summe, was sehr unterschiedlich zur Summe von Logarithmen ist. Scheinbar funktionieren in der Praxis beide Methoden, allerdings sind die Cepstral-Koeffizienten von den Werten her sehr unterschiedlich. Kann das jemand erklären? -- anonym1

Mir ist das auch gerade ins Auge gesprungen. So wie es im Artikel steht ist es strengenommen falsch, denn es ergibt sich eine falsche perzeptive Gewichtung der Koeffizienten (es wird nicht mehr so gewichtet wie der Mensch hört). Die Spracherkennung funktionieriert natürlich auch so, vermutlich aber schlechter. In Spoken Language Processing (X. Huang) steht auf Seite 315: "log-energy at the output of each filter". -- anonym2

Weitere Referenzen, diesmal aus dem Bereich Music Information Retrieval: In [1], [2] wird der Logarithmus vor dem Mel-scaling genommen, in aktuellerer Literatur wie [3], [4] nach dem Mel-scaling. Eine weitere Variante besteht darin, das Power spectrum statt des Magnitude spectrum zu benutzen. Beim Logarithmus vor dem Mel-scaling ist dies ziemlich egal (es ergibt sich einfach ein Faktor 2), beim Logarithmus nach dem Mel-scaling macht es einen Unterschied. Vielleicht sollten diese Varianten in einem Abschnitt "Weitere Varianten" o.ä. beschrieben werden, mit der genormten Variante (siehe oben) im Hauptartikel. -- 193.171.142.152 12:14, 20. Okt. 2011 (CEST)[Beantworten]

Begründung wie oben , baustein überarbeiten - einleitung ganz unklar, möglicherweise ein Fachbegriff, den man kurz woanders erwähnen kann, aber für die WP zu speziell ist Cholo Aleman 01:26, 8. Aug. 2009 (CEST)[Beantworten]

Der Link zur Uni Erlangen ist kaputt. Hab leider auch nicht im Internet sonstwo gefunden. (nicht signierter Beitrag von 2A02:8071:2BC5:F600:D88B:839A:E38C:7317 (Diskussion) 17:47, 15. Dez. 2019 (CET))[Beantworten]