Thorsten (Stimme)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Thorsten (Stimme)

Thorsten-Stimme-Logo.png
Basisdaten

Maintainer Thorsten Müller, Dominik Kreutz
Erscheinungsjahr 2020
Kategorie Sprachsynthese
Lizenz CC0
https://github.com/thorstenMueller/deep-learning-german-tts/

Das Projekt Thorsten (Stimme) wurde im Oktober 2019 von Thorsten Müller und Dominik Kreutz gestartet. Die Motivation war die Bereitstellung einer kostenfreien, qualitativ hochwertigen, deutschen künstlichen Stimme zur Sprachsynthese (auch TTS oder "text to speech" genannt), die offline erzeugt werden und jeder Zielgruppe kostenfrei und ohne lizenzrechtliche Einschränkungen zur Verfügung stehen soll. Daher stehen die Aufnahmen und die daraus berechneten künstlichen TTS-Sprachmodelle unter der CC0 Lizenz frei zur Verfügung.

Durch ein künstliches Modell erzeugte Hörprobe.

Hintergrund[Bearbeiten | Quelltext bearbeiten]

Die Sprache ist die natürliche Kommunikationsform des Menschen und gewinnt auch im Bereich der Mensch-Maschine-Interaktion an Wichtigkeit. So finden sprachbasierte Assistenzsysteme wie Amazon Alexa oder Google Home vermehrt Anwendung im privaten und geschäftlichen Bereich. Die Sprachqualität bildet daher ein Schlüsselkriterium in der Benutzerakzeptanz. Hochwertige Stimmen stehen häufig nur als Cloud-Lösungen zur Verfügung und bringen einige negative Aspekte mit sich:

  • setzen funktionierenden Internetzugang voraus
  • bringen Datenschutzbedenken auf
  • sind lizenzrechtlich in der Nutzung eingeschränkt
  • Abhängigkeit von einem bestimmten Anbieter
  • oft kostenpflichtig

Aufgrund dieser Einschränkungen müssen viele Projekte auf Alternativen zurückgreifen, welche ohne die genannten Einschränkungen funktionieren.

Sprecher-Statement[Bearbeiten | Quelltext bearbeiten]

Thorsten Müller (2021)

"Für mich sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Ich glaube an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Ich habe meine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird." (Thorsten Müller, 2020)[1]

Datasets[Bearbeiten | Quelltext bearbeiten]

Es stehen die folgenden zwei Datasets frei zur Verfügung:

  • "Neutrale" Aufnahmen (aus dem Jahr 2020)
  • "Emotionale" Aufnahmen (aus dem Jahr 2021)

Beide Datasets bestehen aus Audioaufnahmen im Mono-Wave-Format mit einer Samplerate von 22.050 Hertz und einer CSV-Datei mit dem gesprochenen Text pro Audioaufnahme. Auf dieser Basis haben Projekte die Möglichkeit, ein künstliches Stimmenmodell zur Sprachsynthese ohne lizenzrechtliche Einschränkungen zu berechnen. Es stehen auch vortrainierte Modelle zur Verfügung.

Dataset "Thorsten" – Neutral[Bearbeiten | Quelltext bearbeiten]

Diese Aufnahmen aus dem Jahr 2020 wurden freundlich, aber ohne besondere emotionale Betonung aufgezeichnet. Die weiter unten genannten verfügbaren TTS-Modelle wurden mit diesem neutralen Dataset mit Hilfe von maschinellem Lernen auf Basis einer Implementierung von Tacotron 2 trainiert.

Informationen zum neutralen Dataset
Anzahl Aufnahmen 22.668
Aufnahmedauer > 23 Stunden
Samplerate 22.050 Hz
Aufnahmeart Mono
Normalisierung −24 dB
Satzlänge (min/avg/max): 2 / 52 / 180 Zeichen
Gesprochene Zeichen pro Sekunde (avg) 14
Sätze mit Fragezeichen am Ende 2.780
Sätze mit Ausrufezeichen am Ende 1.840
Dataset Diagramm 1:Anzahl Aufnahmen pro Satzlänge
Dataset Diagramm 2:Standardabweichung
Dataset Diagramm 3:Sprechgeschwindigkeit pro Satzlänge

Das neutrale Dataset besteht aus Wörtern und Sätzen mit einer Zeichenlänge zwischen 2 und 180 Zeichen. Es liegt eine relativ konstante Sprechgeschwindigkeit von 14 Zeichen pro Sekunde vor. Aufnahmen mit einer Zeichenlänge von 50 Zeichen entsprechen einer ungefähren Audiodauer von 4 Sekunden. Bei einer Satzlänge von 150 Zeichen beträgt die Länge der Aufnahme 10 Sekunden. Die durchschnittliche Satzlänge beträgt 52 Zeichen. Sätze mit einer Länge von mehr als 100 Zeichen sind in einer geringeren aber konstanten Anzahl vertreten.

Seit Januar 2021 ist das neutrale "Thorsten"-Dataset auch über das OpenSLR-Spracharchiv abrufbar[2].

Dataset "Thorsten" – Emotional[Bearbeiten | Quelltext bearbeiten]

Das zweite Dataset (Veröffentlichung im April 2021) besteht aus 300 Sätzen, die in jeweils unterschiedlichen emotionalen Betonungen aufgenommen wurden. Die folgende Tabelle zeigt die Audiolänge der 300 Aufnahmen pro Emotion, sowie ein Audiobeispiel anhand des folgenden Beispielsatzes: "Mist, wieder nichts geschafft.". Wie auch das neutrale Dataset steht dieses ohne lizenzrechtliche Einschränkungen zur Verfügung.

Audiobeispiele Originalaufnahmen (emotionales Dataset)
Emotion Sprechdauer Audiobeispiel
Neutral 19 Minuten
Angeekelt 23 Minuten
Wütend 20 Minuten
Erfreut 18 Minuten
Schläfrig 30 Minuten
Überrascht 18 Minuten
Betrunken gesprochen

(nüchtern aufgenommen)

25 Minuten
Flüstern 22 Minuten

Das emotionale Dataset steht seit Juni 2021 auch über das OpenSLR-Spracharchiv zur Verfügung.[3]

Verfügbare TTS-Modelle[Bearbeiten | Quelltext bearbeiten]

Auf Basis von maschinellem Lernen wurden verschiedene Modelle trainiert. Sie basieren auf der technischen Umsetzung eines von Mozilla gegründeten TTS-Projektes, welches mittlerweile durch das Startup Coqui.ai fortgesetzt wird. Es basiert auf einer von Google veröffentlichten Spezifikation von Tacotron 2.

Neben der klanglichen Qualität ist die Erzeugungsdauer der synthetisierten Sprache ein wichtiges Kriterium, das bei der Wahl eines TTS-Modells berücksicht werden sollte. Generell kann man von folgender Faustregel ausgehen: Je höher die Qualität der erzeugten Stimme ist, desto länger dauert die Erzeugung eines künstlich gesprochenen Textes. Die Kenngröße, um verschiedene Modelle bezüglich Geschwindigkeit vergleichen zu können, ist der "Real Time Factor (RTF)"

Real Time Factor (RTF)[Bearbeiten | Quelltext bearbeiten]

Der RTF beschreibt den zeitlichen Erzeugungsaufwand in Relation zur Dauer des gesprochenen Satzes.

Folgender Satz soll dies verdeutlichen:

"Guten Tag. Heute ist der 04. September 1983, 19:09 Uhr.".

Von einer künstlichen Stimme gesprochen hat der Satz eine Dauer von 6 Sekunden. Ein RTF von 1 bedeutet, dass die Erzeugung des Satzes (bevor er gesprochen werden kann) ebenfalls 6 Sekunden Zeit beansprucht hat. Ein RTF von 0,1 würde einer Erzeugungszeit von 0,6 Sekunden entsprechen und ein RTF von 2 entspricht 12 Sekunden. Der RTF ist stark abhängig von der bei der Erzeugung verwendeten Hardware.

Je nach geplantem Einsatzzweck muss der zeitliche Aufwand der Stimmerzeugung berücksichtigt werden. In einem Dialogsystem, wo Anwender auf eine gesprochene Antwort warten, ist ein RTF von weniger als 0,5 empfehlenswert.

TTS-Modellvergleich[Bearbeiten | Quelltext bearbeiten]

Audio Parameter für ein Tacotron 2 Training des Thorsten Dataset.

Die folgende Tabelle zeigt verschiedene trainierte TTS-Modelle anhand verschiedener Testsätze.

  • Original: Die Originalaufnahme aus dem Dataset
  • GL: Griffin Lim
  • PWGAN: ParallelWaveGAN (GAN = Generative Adversarial Network)
  • WG: WaveGrad
Text Original GL PWGAN WG
Europa und Asien zusammengenommen wird auch als Eurasien bezeichnet.
Eure Tröte nervt.
Eure Schoko-Bonbons sind sagenhaft lecker!
Euer Plan hat ja toll geklappt.
In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön Nicht zutreffend

Einsatz der Datasets und TTS-Modelle[Bearbeiten | Quelltext bearbeiten]

Folgende Projekte setzen das "Thorsten"-Dataset oder entsprechende TTS-Modelle ein.

  • Oktober 2020: Rhasspy (offline voice assistant)[4]
  • Dezember 2020: Monatis German TTS[5]
  • Dezember 2020: TensorFlowTTS Implementierung[6]
  • März 2021: "Thorsten" dataset[7]
  • März 2021: Coqui AI jupyter notebook[8]
  • April 2021: Coqui AI Thorsten DCA (Dynamic Convolution Attention) mit dem WaveGrad Vocoder[9]
  • April 2021: Silero TTS[10][11]
  • April 2021: Jaco-Assistant (Offline and Open Source Voice Assistant)[12]
  • April 2021: Mycroft AI (Offline TTS Option)[13]

Weiterhin setzt die Forschungsgruppe "Systemintegration" des Instituts für Informationssysteme der Hochschule Hof (geleitet durch Prof. Dr. René Peinl) das Dataset im Bereich TTS ein.[14][15] Sie veröffentlichten im Juni 2021 zwei wissenschaftliche Abhandlungen zur künstlichen Spracherzeugung unter Berücksichtigung des Thorsten Datasets auf arXiv.org.[16][17]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. openslr.org. Abgerufen am 21. März 2021.
  2. openslr.org. Abgerufen am 4. Januar 2021.
  3. openslr.org. Abgerufen am 15. Juni 2021.
  4. rhasspy/de_larynx-thorsten. Rhasspy, 18. November 2020, abgerufen am 11. April 2021.
  5. M. Yusuf Sarıgöz: monatis/german-tts. 9. Februar 2021, abgerufen am 11. April 2021.
  6. TensorSpeech/TensorFlowTTS. TensorSpeech, 11. Mai 2021, abgerufen am 11. Mai 2021.
  7. coqui-ai/TTS. Abgerufen am 11. April 2021 (englisch).
  8. coqui-ai/TTS. Abgerufen am 11. April 2021 (englisch).
  9. Coqui. Abgerufen am 5. April 2021 (englisch).
  10. High-Quality Text-to-Speech Made Accessible, Simple and Fast. Abgerufen am 11. April 2021 (russisch).
  11. Alexander Veysov: snakers4/silero-models. 11. April 2021, abgerufen am 11. April 2021.
  12. Jaco-Assistant. Abgerufen am 11. April 2021 (englisch).
  13. Mycroft AI, Inc.: TTS Optionen für Mycroft AI. Mycroft AI, Inc., 3. Mai 2021, abgerufen am 3. Mai 2021 (englisch).
  14. iisys Audio Samples Speech Synthesis. Abgerufen am 16. Mai 2021.
  15. TTS INFERENCING. Abgerufen am 16. Mai 2021.
  16. René Peinl: Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache. In: arXiv:2106.06230 [cs]. 11. Juni 2021 (arxiv.org [abgerufen am 15. Juni 2021]).
  17. Pascal Puchtler, Johannes Wirth, René Peinl: HUI-Audio-Corpus-German: A high quality TTS dataset. In: arXiv:2106.06309 [cs, eess]. 11. Juni 2021 (arxiv.org [abgerufen am 15. Juni 2021]).