Benutzer:MrThorstenM/Thorsten (Stimme) Entwurf 2

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Thorsten (TTS-Stimme)

Basisdaten

Hauptentwickler Thorsten Müller, Dominik Kreutz
Erscheinungsjahr 2020
Kategorie Sprachsynthese
Lizenz CC0
https://github.com/thorstenMueller/deep-learning-german-tts/

Das Projekt Thorsten (TTS-Stimme) wurde im Oktober 2019 von Thorsten Müller und Dominik Kreutz gestartet. Die Motivation war die Bereitstellung einer kostenfreien, qualitativ hochwertigen, deutschen künstlichen TTS-Stimme zur Sprachsynthese, die offline erzeugt werden und jeder Zielgruppe kostenfrei und ohne lizenzrechtliche Einschränkungen zur Verfügung stehen soll. Daher stehen die TTS-Modelle und zugrundeliegenden Aufnahmen unter der CC0 Lizenz frei zur Verfügung.

Hintergrund[Bearbeiten | Quelltext bearbeiten]

Die Sprache ist die natürliche Kommunikationsform des Menschen und gewinnt auch im Bereich der Mensch-Maschine-Interaktion an Wichtigkeit. So finden sprachbasierte Assistensysteme wie Amazon Alexa oder Google Home vermehrt Anwendung im privaten und geschäftlichen Bereich. Die Sprachqualität bildet daher ein Schlüsselkriterium in der Benutzerakzeptanz. Hochwertige Stimmen stehen häufig nur als Cloud Lösungen zur Verfügung und bringen einige negative Aspekte mit sich.

  • Setzen funktionierenden Internetzugang voraus
  • Bringen Datenschutzbedenken auf
  • Sind lizenzrechtlich in der Nutzung eingeschränkt
  • Abhängigkeit zu einem bestimmten Anbieter
  • Oft kostenpflichtig

Aufgrund dieser Einschänkungen müssen viele Projekte auf Alternativen zurückgreifen welche ohne die genannten Einschränkungen funktionieren. Die bestehenden deutschsprachigen Lösungen (wie festival[1], mbrola und pico2/SVOX) sind qualitativ keine Alternative zu kommerziellen Cloud Stimmen.

Auf Basis der freien Stimmaufnahmen ("Thorsten"-Dataset) haben Projekte ohne lizenzrechtliche Einschränkungen die Möglichkeit ein künstliches Stimmenmodell zur Sprachsynthese zu berechnen. Es stehen auch vortrainierte Modelle zur Verfügung.

Sprecher Statement[Bearbeiten | Quelltext bearbeiten]

Datei:IMG 20180511 154928.jpg
Thorsten Müller (2018)

"Ich habe meine Stimme der Allgemeinheit gespendet in dem festen Glauben daran, dass alle Menschen gleich sind. Unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe und Geokoordinaten der Geburt. Ich glaube an eine globale Welt wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung stehen. Ich wünsche mir, dass meine Stimme in diesem Sinne genutzt wird." (Thorsten Müller)[2]

Datasets[Bearbeiten | Quelltext bearbeiten]

Ein Dataset besteht aus Audioaufnahmen im Wave-Format und einer CSV-Datei mit dem gesprochenen Text pro Audioaufnahme. Es stehen zwei verschiedene "Thorsten" Datasets frei zur Verfügung.

  • "Normale" Aufnahmen
  • "Emotionale" Aufnahmen

Dataset "Thorsten" (Normal)[Bearbeiten | Quelltext bearbeiten]

Diese Aufnahmen aus dem Jahr 2020 wurden freundlich aber ohne besondere Emotion aufgezeichnet. Mit Hilfe von maschinellem Lernen wurden auf Basis dieses Datasets verschiedene freie TTS-Modelle, auf Basis der Tacotron 2 Implementierung von Mozilla, berechnet.

Dataset Diagramm 1 - Sprechgeschwindigkeit
Dataset Diagramm 2 - Standardabweichung
Information Wert
Anzahl Aufnahmen 22.668
Aufnahmedauer > 23 Stunden
Samplerate 22.050Hz
Aufnahmeart Mono
Normalisierung -24dB
Satzlänge (min/avg/max): 2 / 52 / 180 Zeichen
Gesprochene Zeichen pro Sekunde (avg) 14
Sätze mit Fragezeichen am Ende 2.780
Sätze mit Ausrufezeichen am Ende 1.840


Das Dataset besteht aus Wörtern und Sätzen mit einer gesamten Zeichenlänge zwischen 2 und 180 Zeichen.

Dataset Diagramm 3 - Anzahl Aufnahmen pro Satzlänge

Es liegt eine relativ konstante Sprechgeschwindigkeit von 14 Zeichen pro Sekunde vor. Aufnahmen mit einer Zeichenlänge von 50 Zeichen entsprechen einer ungefähren Audiodauer von 4 Sekunden. Bei einer Satzlänge von 150 Zeichen beträgt die Länge der Aufnahme 10 Sekunden. Mit einer durchschnittlichen Satzlänge von 52 Zeichen bildet dieser Wert den höchsten Punkt der Grafik ab. Sätze mit einer Länge von mehr als 100 Zeichen sind in einer geringeren aber konstanten Anzahl vertreten.

Seit Januar 2021 ist das "Thorsten" Dataset auch über das OpenSLR Spracharchiv abbrufbar[3].

Audio Beispiele

Folgende Sätze stammen aus dem aufgenommenen Dataset und dienen als Referenz um die Qualität verschiedener TTS-Modelle besser vergleichen zu können.

Audiobeispiele Originalaufnahmen (normales Dataset)
Text Originalaufnahme
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
Eure Tröte nervt.
Eure Schoko-Bonbons sind sagenhaft lecker!
Euer Plan hat ja toll geklappt.

Dataset "Thorsten" (Emotional)[Bearbeiten | Quelltext bearbeiten]

Das zweite Dataset (Veröffentlichtung im März 2021) besteht aus 300 Sätzen die in jeweils unterschiedlichen emotionalen Betonungen aufgenommen wurden. Die folgende Tabelle zeigt die Audiolänge der 300 Aufnahmen pro Emotion, sowie ein Audiobeispiel anhand folgenden Beispielsatzes ("Mist, wieder nichts geschafft."). Wie auch das "normale" Dataset steht dieses ohne lizenzrechtliche Einschränkungen zur Verfügung.

Audiobeispiele Originalaufnahmen (emotionales Dataset)
Emotion Sprechdauer Audiobeispiel
Neutral TODO
Angeekelt TODO
Wütend TODO
Erfreut TODO
Schläfrig TODO
Überrascht TODO

Verfügbare TTS-Modelle[Bearbeiten | Quelltext bearbeiten]

Auf Basis von maschinellem Lernen wurden verschiedene Modelle trainiert. Sie basieren auf der technischen Umsetzung eines von Mozilla gegründeten TTS-Projektes, welches mittlerweile durch das Startup Coqui.ai fortgesetzt wird. Es basiert auf einer von Google veröffentlichten Tacotron 2 Spezifikation.

Real Time Factor

Neben dem qualitativen Unterschied der einzelnen Modelle (siehe verschiedene Vocoder) besteht eine Kenngröße im RTF (Real-time-factor). Dieser beschreibt den zeitlichen Erzeugungsaufwand in Relation zur Dauer des gesprochenen Satzes. Folgendes Beispiel soll diesen Zusammenhang erläutern.

Die Aussage - "Guten Tag. Heute ist Freitag, der 04. September 2020, 19:09 Uhr." - hat, von der künstlichen Stimme gesprochen, eine Dauer von 7 Sekunden. Ein RTF von 1 bedeutet, dass die Erzeugung des Satzes ebenfalls 7 Sekunden Zeit im Vorfeld beansprucht hat. Ein RTF von 0,1 würde eine Erzeugungszeit von 0,7 Sekunden entsprechen und ein RTF von 2 entspricht 14 Sekunden. Der RTF ist stark abhängig von der bei der Erzeugung verwendeten Hardware.

Je nach geplantem Einsatzzweck muss der zeitliche Aufwand der Stimmerzeugung berücksichtigt werden.


Vergleich verschiedener Modelle

Folgende Tabelle zeigt einen Vergleich verschiedener Vocoder Modelle.

  • GL: Griffin Lim Vocoder
  • PWGAN: Parallel WaveGAN Vocoder
  • WG: WaveGrad Vocoder
Text GL PWGAN WG
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
Eure Tröte nervt.
Eure Schoko-Bonbons sind sagenhaft lecker!
Euer Plan hat ja toll geklappt.
In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön

Einsatz der "Thorsten" - Stimme[Bearbeiten | Quelltext bearbeiten]

Die Stimmen-Modelle werden in folgenden Projekten / Produkten eingesetzt.

TODO[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Kategorie:Sprachsoftware Kategorie:Sprache

  1. Festival Online Demo. Abgerufen am 21. März 2021.
  2. openslr.org. Abgerufen am 21. März 2021.
  3. openslr.org. Abgerufen am 4. Januar 2021.