Benutzer:Horald007/Entwurf Spracherkennung Linux

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Seit dem Jahr 2000 existieren mehrere Spracherkennung (SR) Softwarepakete für Linux. Einige von ihnen sind freie und Open-Source-Software und andere sind proprietäre Software. Spracherkennung bezieht sich in der Regel auf Software, die versucht, Tausende von Wörtern in einer menschlichen Sprache zu unterscheiden. Sprachsteuerung kann sich auf Software beziehen, die zur Übertragung von Steuerungsbefehlen an einen Computer verwendet werden.

Spracherkennung unter Linux[Bearbeiten | Quelltext bearbeiten]

Geschichte[Bearbeiten | Quelltext bearbeiten]

Ende der 90er Jahre wurde eine Linux-Version von ViaVoice, erstellt von IBM, den Benutzern kostenlos zur Verfügung gestellt. Im Jahr 2002 wurde das kostenlose Software Development Kit (SDK) vom Entwickler wieder entfernt.

Entwicklungsstand[Bearbeiten | Quelltext bearbeiten]

Seit dem Jahr 2000 wurde der Anstoß gegeben, eine hochwertige Linux native Spracherkennungsmaschine zu entwickeln. Infolgedessen wurden mehrere Projekte zur Erstellung von Linux-Spracherkennungsprogrammen gestartet, wie z.B. Mycroft, das ähnlich wie Microsoft Cortana ist, aber Open Source.

Sprachbeispiel Massenbeschaffung[Bearbeiten | Quelltext bearbeiten]

Es ist unerlässlich, einen Sprachkörper zu erstellen, um akustisches Modells für Spracherkennung Projekte zu erstellen. VoxForge ist ein Korpus für freie Sprache und akustische Modelle, der mit dem Ziel gebaut wurde, transkribierte Sprache zu sammeln, um sie in Spracherkennungsprojekten zu verwenden. VoxForge akzeptiert crowdsourced Sprachproben und Korrekturen von anerkannten Sprachsequenzen. Es ist unter einer GNU General Public License lizenziert. (GPL).

Konzept der Spracherkennung[Bearbeiten | Quelltext bearbeiten]

Der erste Schritt besteht darin, mit der Aufnahme eines Audio-Streams auf einem Computer zu beginnen. Der Benutzer hat im Wesentlichen zwei Bearbeitungsmöglichkeiten:

  • Diskrete Spracherkennung (DSR) - verarbeitet Informationen auf einer lokalen Maschine vollständig. Dies bezieht sich auf in sich geschlossene Systeme, in denen alle Aspekte der SR vollständig auf dem Computer des Benutzers ausgeführt werden. Dies wird für den Schutz des geistigen Eigentums (IP) und die Vermeidung unerwünschter Überwachung (2018) immer wichtiger.
  • Remote oder server-based SR - sendet eine Audio-Sprachdatei an einen entfernten server, um die Datei in eine Textzeichenkettendatei zu konvertieren. Aufgrund der neuesten Cloud Storage-Schemata und des Data Mining ermöglicht dieses Verfahren leichter die Überwachung, den Diebstahl von Informationen und das Einfügen von Malware.

Die Fernerkennung wurde früher von Smartphones verwendet, weil ihnen die Leistung fehlte und sie nicht genügend Speicher oder Speicher hatten, um die Spracherkennung im Telefon zu verarbeiten. Diese Grenzen wurden weitgehend überwunden, obwohl serverbasierte SR auf mobilen Geräten nach wie vor universell eingesetzt werden.

Spracherkennung im Browser[Bearbeiten | Quelltext bearbeiten]

Die diskrete Spracherkennung kann innerhalb eines Webbrowser durchgeführt werden und funktioniert gut mit unterstützten Browsern. Remote SR erfordert keine Installation von Software auf einem Desktop-Computer oder mobilen Gerät, da es sich hauptsächlich um ein serverbasiertes System mit den oben genannten Sicherheitsproblemen handelt.

  • Remote: https://dictation.io (verwenden Sie Chrom/Chrom) Der Diktatservice zeichnet über einen Webbrowser eine Audiospur des Benutzers auf. dictation.io wiederum verwendet die Google-API für die Spracherkennung. In Google Docs funktioniert die Google-Spracherkennung in einem Chrome-Browser, unabhängig von Betriebssystem, da es sich um ein serverbasiertes System handelt.
  • DSR: Es gibt Lösungen, die nur auf einem Client funktionieren, ohne Daten an Server zu senden, z.B.pocketsphinx.js.

Freie Spracherkennungsmaschinen[Bearbeiten | Quelltext bearbeiten]

Im Folgenden finden Sie eine Liste von Projekten, die sich mit der Implementierung von Spracherkennung unter Linux und wichtigen nativen Lösungen befassen. Dies sind keine Endbenutzeranwendungen. Dabei handelt es sich um die Programmierung libraries, die zur Entwicklung von Endbenutzeranwendungen verwendet werden kann.

  • CMU Sphinx ist ein allgemeiner Begriff zur Beschreibung einer Gruppe von Spracherkennungssystemen, die an der Carnegie Mellon University entwickelt wurden.
  • Julius ist eine leistungsstarke, zweispurige großes Vokabular kontinuierliche Spracherkennung (LVCSR) Decoder-Software für sprachbezogene Forscher und Entwickler.
  • Kaldi ein Toolkit zur Spracherkennung, das unter der Apache-Lizenz angeboten wird.
  • Mozilla DeepSpeech entwickelt eine Open-Source Speech-To-Text-Engine, die auf Baidus Deep Speech Research Paper basiert.[1]

bekannte aktive Projekte: Vorlage:Liste erweitern

  • Parlatype, Audioplayer für die manuelle Sprachübertragung für den GNOME-Desktop, bietet seit Version 1.6 kontinuierliche Spracherkennung mit CMU Sphinx.[2]
  • Lera (Large Vocabulary Speech Recognition) basierend auf Simon und CMU Sphinx für KDE.[3]
  • Speechpad.pw[4] verwendet Googles Spracherkennungsmodul und Chrome native Messaging API, um direkte Spracheingabe in Linux zu ermöglichen.
  • Sprache[5] verwendet Googles Spracherkennungsmaschine, um Diktate in vielen verschiedenen Sprachen zu unterstützen.
  • Sprachsteuerung: ist eine Qt-basierte Anwendung, die die Tools von CMU Sphinx wie SphinxTrain und PocketSphinx verwendet, um Spracherkennungsprogramme wie Desktop-Steuerung, Diktat und Transkription auf dem Linux-Desktop bereitzustellen.
  • Platypus[6] ist ein Open-Source-Shim, das es dem proprietären Dragon NaturallySpeaking ermöglicht, unter Wine mit jeder Linux X11-Anwendung zu arbeiten.
  • FreeSpeech, [7] vom Entwickler von Platypus, ist eine kostenlose und Open Source Cross-Plattform-Desktop-Anwendung für GTK, die die Tools von CMU Sphinx verwendet, um Sprachdiktate, Sprachlernen und Editieren im Stil von Dragon NaturallySpeaking anzubieten.
  • Vedics[8] (Voice Enabled Desktop Interaction and Control System) ist ein Sprachassistent für GNOME Umgebung.
  • GnomeVoiceControl[9] ist ein Dialogsystem zur Steuerung des GNOME-Desktops, das 2007 im Rahmen des Google Summer of Code entwickelt wurde.
  • NatI[10] ist ein mehrsprachiges Sprachsteuerungssystem, das in Python geschrieben ist.
  • SphinxKeys[11] erlaubt es dem Benutzer, Tastaturtasten und Mausklicks einzugeben, indem er in sein Mikrofon spricht.
  • VoxForge ist ein Korpus für freie Sprache und akustische Modelle für Open-Source-Spracherkennungsmaschinen.
  • Simon[12] zielt darauf ab, extrem flexibel zu sein, um Dialekte oder gar Sprachstörungen auszugleichen. Es verwendet entweder HTK - Julius oder CMU SPHINX, arbeitet unter Windows und Linux und unterstützt Schulungen (sieheDemo Video: Simon Dictation Prototyp).
  • Speeral Speeral eine Gruppe von Spracherkennungswerkzeugen, die an der Universität Avignon entwickelt wurden.
  • Jasper-Projekt[13] Jasper ist eine Open-Source-Plattform für die Entwicklung von immer aktiven, sprachgesteuerten Anwendungen. Dies ist ein integriertes Raspberry Pi Frontend für CMU Sphinx oder Julius.

Es ist für Entwickler möglich, Linux-Spracherkennungssoftware zu erstellen, indem sie bestehende Pakete aus Open-Source-Projekten verwenden.

Inaktive Projekte:

  • VoiceControl[14] ist eine KDE- und X Window-unabhängige Version seines Vorgängers KVoiceControl. Der Eigentümer hat die Entwicklung im Alpha-Stadium der Entwicklung eingestellt.
  • Open Mind Speech,[15] ein Teil der Open Mind Initiative,[16] zielt darauf ab, kostenlose (GPL) Spracherkennungswerkzeuge und Anwendungen zu entwickeln und Sprachdaten zu sammeln. Die Produktion wurde im Jahr 2000 eingestellt.
  • PerlBox[17] ist eine perl basierte Steuerung und Sprachausgabe. Die Entwicklung wurde 2004 frühzeitig beendet.
  • Xvoice[18] Eine Benutzeranwendung, um Diktat und Befehlskontrolle für jede X-Anwendung bereitzustellen. Die Entwicklung endete 2009 mit einem frühen Projekttest. (erfordert die Funktion von ViaVoice)

Proprietäre Spracherkennungsmaschinen[Bearbeiten | Quelltext bearbeiten]

  • Verbio ASR[19] ist ein kommerzieller Spracherkennungsserver für Linux- und Windows-Plattformen.
  • DynaSpeak, [20] von SRI International, (sprecherunabhängige Spracherkennung Software Development Kit, die von kleinen bis großen Systemen skalierbar ist, für den Einsatz in kommerziellen, privaten und militärischen Anwendungen)
  • Janus Recognition Toolkit (JRTk)[21] ist ein Open-Source-Spracherkennungs-Toolkit, das hauptsächlich für Linux entwickelt wurde und von den Interactive Systems Laboratories der Carnegie Mellon University und Karlsruhe Institute of Technology entwickelt wurde, für die kommerzielle und Forschungslizenzen verfügbar sind.
  • LumenVox Speech Engine ist eine kommerzielle Bibliothek zur Einbindung in andere Software für Linux und Windows. Es wurde in das Asterisk Nebenstellenanlage integriert.[22]
  • VoxSigma ist eine von Vocapia Research entwickelte Spracherkennungssoftware-Suite.[23]>

Sprachsteuerung und Tastaturkürzel[Bearbeiten | Quelltext bearbeiten]

Spracherkennung bezieht sich in der Regel auf Software, die versucht, Tausende von Wörtern in einer menschlichen Sprache zu unterscheiden. Sprachsteuerung kann sich auf Software beziehen, die zum Senden von Steuerungsbefehlen an einen Computer oder ein Gerät verwendet wird. Die Sprachsteuerung erfordert in der Regel einen viel kleineren Wortschatz und ist daher viel einfacher zu implementieren.

Einfache Software in Kombination mit Tastaturkürzels haben das früheste Potenzial für eine praktisch genaue Sprachsteuerung unter Linux.

Ausführen von Windows-Spracherkennungssoftware unter Linux[Bearbeiten | Quelltext bearbeiten]

Über die Kompatibilitätsschicht[Bearbeiten | Quelltext bearbeiten]

Es ist möglich, Programme wie Dragon NaturallySpeaking unter Linux zu verwenden, indem man Wine verwendet, obwohl einige Probleme auftreten können, je nachdem, welche Version verwendet wird.[24]

Über virtualisiertes Windows[Bearbeiten | Quelltext bearbeiten]

Es ist auch möglich, die Windows-Spracherkennungssoftware unter Linux zu verwenden. Mit der kostenlosen Software Virtualisierung ist es möglich, Windows und NaturallySpeaking unter Linux auszuführen. VMware Server oder VirtualBox unterstützen das Kopieren und Einfügen auf/von einer virtuellen Maschine, wodurch diktierter Text leicht auf/von der virtuellen Maschine übertragen werden kann.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Referenzen[Bearbeiten | Quelltext bearbeiten]

Vorlage:Reflist

Externe Links[Bearbeiten | Quelltext bearbeiten]

  1. A TensorFlow-Implementierung von Baidus DeepSpeech-Architektur. Mozilla, 5. Dezember 2017, abgerufen am 5. Dezember 2017.
  2. Parlatype 1.6 veröffentlicht, 24. April 2019, http://gkarsay.github.io/parlatype/2019/04/24/v1.6.html/ Zurückgeholt 2019-05-12.
  3. Lera KDE git Repository - (2015) - https://cgit.kde.org/scratch/grasch/lera.git/ Retrieved 2017-07-25.
  4. Speech to text online, Windows- und Linux-Integration. In: speechpad.pw.
  5. andre-luiz-dos-santos/speech-app. In: GitHub. 12. Juli 2018;.
  6. The Nerd Show - Platypus. In: thenerdshow.com.
  7. FreeSpeech Realtime Speech Recognition and Dictation. In: TheNerdShow.com.
  8. Vedics.
  9. Projekte/GnomeVoiceControl - GNOME Wiki! In: wiki.gnome.org.
  10. rcorcs/NatI. In: GitHub. 24. September 2018;.
  11. worden341/sphinxkeys. In: GitHub. 11. Juli 2016;.
  12. Simon KDE - Hauptentwickler bis 2015 Peter Grasch - (Zugriff 2017/09/04) - [1]
  13. <!-Unstated-->: Jasper. In: GitHub.
  14. Daniel Kiecza: Linux. In: Kiecza.net.
  15. Open Mind Speech - Free Speech Recognition for Linux. In: freespeech.sourceforge.net.
  16. Open Mind Initiative. Archiviert vom Original am 5. August 2003; abgerufen am 16. März 2019.
  17. Perlbox.org Linux Sprachsteuerung und Spracherkennung. In: perlbox.sourceforge.net.
  18. Xvoice. In: xvoice.sourceforge.net.
  19. Verbio. In: www.verbio.com.
  20. SRI Rede: Home. In: www.speechatsri.com.
  21. Roedder, Margit (IAR): KIT - Janus Recognition Toolkit. In: isl.ira.uka.de. 26. Januar 2018;.
  22. <!-Unstated-->: Speech and Multifactor Authentication Technologies. In: LumenVox. Abgerufen am 28. Februar 2013.
  23. <!-Unstated-->: Speech to Text Software & Service - Speech Recognition Software. In: Vocapia Research. 30. Dezember 2018, abgerufen am 16. März 2019.
  24. WineHQ - Dragon Naturally Speaking. In: appdb.winehq.org.