OpenSMILE

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
openSMILE
Basisdaten

Entwickler audEERING GmbH
Erscheinungsjahr 2010
Aktuelle Version 2.3
(28. Oktober 2016)
Betriebssystem Linux, macOS, Windows
Programmiersprache C++
Kategorie Maschinelles Lernen
Lizenz Open Source, proprietär
deutschsprachig nein
audeering.com

openSMILE[1] ist eine quelloffene Software zur automatischen Extraktion von Merkmalen aus Audiosignalen sowie zur Klassifikation von Sprach- und Musiksignalen. "SMILE" steht für "Speech & Music Interpretation by Large-space Extraction". Die Software wird vor allem im Bereich der automatischen Emotionserkennung angewendet und ist in der Affective Computing-Forschungsgemeinde weit verbreitet. Das openSMILE-Projekt existiert seit dem Jahr 2008 und wird seit 2013 von der deutschen Firma audEERING GmbH weitergeführt. openSMILE wird für Forschungszwecke und persönlichen Gebrauch im Rahmen einer Open-Source-Lizenz kostenlos angeboten. Für den kommerziellen Einsatz des Tools bietet das Unternehmen audEERING individuelle Lizenz-Optionen an.

Anwendungsgebiete[Bearbeiten | Quelltext bearbeiten]

openSMILE wird sowohl in der akademischen Forschung als auch in kommerziellen Anwendungen eingesetzt, um Sprach- und Musiksignale in Echtzeit automatisiert zu analysieren. Im Gegensatz zur automatischen Spracherkennung, welche den gesprochenen Inhalt aus einem Sprachsignal extrahiert, erkennt openSMILE die Charakteristik eines Sprach- oder Musiksegments. Beispiele für Charakteristiken in der menschlichen Sprache sind Emotion[2], Alter, Geschlecht und Persönlichkeit des Sprechers, sowie Sprecherzustände wie Depression, Trunkenheit oder krankhafte Beeinträchtigungen der Stimme. Die Software beinhaltet außerdem Musik-Klassifikations-Technologien zur Erkennung von Stimmung, Refrain-Segmenten, Tonart, Akkorden, Tempo, Taktart, Tanzstil und Genre.

Das openSMILE-Toolkit dient als Benchmark für viele Forschungswettbewerbe wie Interspeech ComParE[3], AVEC[4], MediaEval[5] und EmotiW[6].

Geschichte[Bearbeiten | Quelltext bearbeiten]

Das openSMILE-Projekt wurde 2008 an der Technischen Universität München im Rahmen des EU-Forschungsprojekts SEMAINE von Florian Eyben, Martin Wöllmer und Björn Schuller gestartet. Ziel des SEMAINE-Projekts war die Entwicklung eines virtuellen Agentens mit emotionaler und sozialer Intelligenz. In diesem System wurde openSMILE für die Echtzeit-Analyse von Sprache und Emotion verwendet. In der finalen Veröffentlichung von SEMAINE kommt die openSMILE-Version 1.0.1 zum Einsatz.

Im Jahr 2009 wurde basierend auf openSMILE das erste quelloffene Emotionserkennungs-Toolkit (openEAR) veröffentlicht. "EAR" steht dabei für "Emotion and Affect Recognition".

2010 wurde die openSMILE-Version 1.0.1 auf der ACM-Multimedia Open-Source Software Challenge vorgestellt und ausgezeichnet.

Zwischen 2011 und 2013 wurde openSMILE von Florian Eyben und Felix Weninger im Rahmen ihrer Doktorarbeit an der Technischen Universität München weiterentwickelt. Die Software kam auch in dem von der EU geförderten Projekt ASC-Inclusion zum Einsatz und wurde hierfür von Erik Marchi erweitert.

Im Jahr 2013 erwarb die Firma audEERING die Rechte an der Code-Basis von der Technischen Universität München und die Version 2.0 wurde unter einer Open-Source-Forschungslizenz veröffentlicht.

Bis zum Jahr 2016 wurde openSMILE mehr als 50.000 Mal weltweit abgerufen und hat sich als Standard-Toolkit für Emotionserkennung etabliert.

Auszeichnungen[Bearbeiten | Quelltext bearbeiten]

openSMILE wurde 2010 im Kontext der ACM Multimedia Open Source Competition ausgezeichnet. Das Software-Tool wird in vielen wissenschaftlichen Publikationen zum Thema automatische Emotionserkennung eingesetzt. openSMILE und die Erweiterung openEAR wurden in über 1000 wissenschaftlichen Publikationen zitiert[7][8].

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. F. Eyben, M. Wöllmer, B. Schuller: „openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor“, In Proc. ACM Multimedia (MM), ACM, Florence, Italy, ACM, pp. 1459-1462, October 2010.
  2. B. Schuller, B. Vlasenko, F. Eyben, M. Wöllmer, A. Stuhlsatz, A. Wendemuth, G. Rigoll, „Cross-Corpus Acoustic Emotion Recognition: Variances and Strategies (Extended Abstract),“ in Proc. of ACII 2015, Xi'an, China, invited for the Special Session on Most Influential Articles in IEEE Transactions on Affective Computing.
  3. B. Schuller, S. Steidl, A. Batliner, J. Hirschberg, J. K. Burgoon, A. Elkins, Y. Zhang, E. Coutinho: „The INTERSPEECH 2016 Computational Paralinguistics Challenge: Deception & Sincerity“, Proceedings INTERSPEECH 2016, ISCA, San Francisco, USA, 2016.
  4. F. Ringeval, B. Schuller, M. Valstar, R. Cowie, M. Pantic,“AVEC 2015 - The 5th International Audio/Visual Emotion Challenge and Workshop,” in Proceedings of the 23rd ACM International Conference on Multimedia, MM 2015, (Brisbane, Australia), ACM, October 2015.
  5. M. Eskevich, R. Aly, D. Racca, R. Ordelman, S. Chen, G. J. Jones, „The search and hyperlinking task at MediaEval 2014“.
  6. F. Ringeval, S. Amiriparian, F. Eyben, K. Scherer, B. Schuller, “Emotion Recognition in the Wild: Incorporating Voice and Lip Activity in Multimodal Decision-Level Fusion,” in Proceedings of the ICMI 2014 EmotiW – Emotion Recognition In The Wild Challenge and Workshop (EmotiW 2014), Satellite of the 16th ACM International Conference on Multimodal Interaction (ICMI 2014), (Istanbul, Turkey), pp. 473– 480, ACM, November 2014
  7. http://scholar.google.de/citations?view_op=view_citation&hl=de&user=72yq_tkAAAAJ&citation_for_view=72yq_tkAAAAJ:9yKSN-GCB0IC
  8. http://scholar.google.de/citations?view_op=view_citation&hl=de&user=72yq_tkAAAAJ&citation_for_view=72yq_tkAAAAJ:u5HHmVD_uO8C