Dragon NaturallySpeaking

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dragon NaturallySpeaking
Entwickler Nuance Communications
Aktuelle Version 13
(August 2014)
Betriebssystem Windows
Kategorie Spracherkennung
Lizenz Proprietär
Deutschsprachig ja
http://www.nuance.de/naturallyspeaking/

Dragon NaturallySpeaking ist eine Spracherkennungs-Software, die das gesprochene Wort in Text auf dem Bildschirm oder Steuerungsbefehle für den Computer umsetzt. Dragon NaturallySpeaking ist in verschiedenen Ausgaben für private und professionelle Nutzer zu kaufen, unabhängige Anbieter liefern zusätzliche Fachvokabulare. Ferner werden von unabhängigen Anbietern Zusatzprogramme mit erweiterten Befehlssätzen zur Steuerung des Computers angeboten.

Anfänge[Bearbeiten]

Die Anfänge des Programms und des ursprünglichen Herstellers beruhen auf einem Prototyp von Software zur Spracherkennung, der Ende der siebziger, Anfang der achtziger Jahre des 20. Jahrhunderts von James und Janet Baker entwickelt worden war, während sie zunächst an der Carnegie Mellon University, später an einem IBM-Forschungszentrum tätig waren.[1] Die Bakers gründeten Dragon Systems im Mai 1982.[2] Vorläufer von Dragon NaturallySpeaking war die Software DragonDictate, die für DOS geschrieben war und noch keine kontinuierliche Spracherkennung ermöglichte. Dragon NaturallySpeaking 1.0 erschien 1997. Im Jahre 2000 wurde das Unternehmen von Lernout & Hauspie übernommen. Aus dessen Insolvenzmasse erwarb 2005 das amerikanische Unternehmen ScanSoft die Rechte daran, welches heute Nuance Communications heißt.

Funktionsweise[Bearbeiten]

Dragon NaturallySpeaking ist eine Software zur Spracherkennung am PC. Die Software setzt Äußerungen, die in ein mit dem Computer verbundenes Mikrofon gesprochen werden, in Text oder Steuerungsbefehle um. Es handelt sich um ein sprecherabhängiges (eine Anpassung an den Nutzer erforderndes) Front-End-System, also eines, bei dem die Umsetzung der Sprache in Text auf dem Rechner des Nutzers erfolgt und unmittelbar nach dem Diktat der Äußerung sichtbar ist („what you say is what you see“). Im Verhältnis etwa zur Spracherkennungsfunktion von Smartphones, bei der die Umsetzung der über das Internet gesendeten akustischen Informationen auf zentralen Servern erfolgt und der Text dann zurück übertragen wird, ergeben sich hierdurch deutliche Vorteile bei Geschwindigkeit und Genauigkeit der Umsetzung sowie der Möglichkeit zur Anpassung an Wortschatz und Bedürfnisse des Nutzers. Je nach Ausgabe wird von DragonNaturally Speaking auch die Umsetzung zuvor (mit einem Diktiergerät oder einem Aufnahmeprogramm) aufgezeichneter Diktate unterstützt.

Die akustischen Signale werden zur Umsetzung – vereinfacht gesagt – digital abgetastet und im Rahmen eines „akustischen Modells“ nach Charakteristika eingeordnet, die eine ungefähre Zuordnung zu Lauten ermöglichen. Die Auswahl erfolgt statistisch unter Einsatz verschiedener Varianten von Hidden-Markov-Modellen. Dieses akustische Modell wird bei einem anfänglichen Training und fortlaufend bei der Benutzung, insbesondere durch die Korrektur von Erkennungsfehlern, an die Stimme des jeweiligen Sprechers angepasst. Zu den „erkannten“ Lauten werden dann statistische Hypothesen über die jeweils am wahrscheinlichsten gesagten Worte angestellt. Bei ähnlich oder gleich klingenden Lauten/Worten entscheidet die Software somit anhand von Mehrwortfolgen innerhalb der Äußerung des Sprechers, welches Ergebnis als Text auf dem Bildschirm erscheint. Grundlage hierfür ist ein Sprachmodell (linguistisches Modell), welches diese Wahrscheinlichkeiten beschreibt. Einzelheiten sind im Artikel zur Spracherkennung näher erläutert. Der Erkennungsvorgang läuft auf aktueller Hardware normalerweise so schnell im Hintergrund ab, dass der gesprochene Text fast sofort nach Beendigung der Äußerung auf dem Bildschirm erscheint.

Im Auslieferungszustand enthält die Software Standard-Sprachmodelle für die jeweilige Eingabesprache, die auf einer Analyse der Wahrscheinlichkeit von Wortfolgen innerhalb eines sehr großen Text-Corpus durch den Hersteller beruhen. Bei der Einrichtung der Software am PC des Nutzers – der Anlage eines Benutzerprofils – kann dieses Standard-Sprachmodell durch die Analyse von vorhandenen Texten des jeweiligen Nutzers an dessen Schreibstil angepasst werden. Dies erfolgt auch fortlaufend während der Benutzung (sogenannte Modelloptimierung). Für diese fortwährende Verbesserung des linguistischen Modells (aber auch für die des akustischen Modells) ist dabei insbesondere die konsequente Korrektur der falsch erkannten Wörter und Wortkombinationen vermittels der entsprechenden Programmfunktionen wichtig. Dragon NaturallySpeaking verwendet bei dem in der Version 11 vorherrschenden Sprachmodell „BestMatch IV“ Zusammenhänge von bis zu vier Wörtern, so genannte Quadgramme. In der Version 12 richtet Dragon auf entsprechend leistungsstarken PCs (Mehrkernprozessoren und Arbeitsspeicher von mehr als 2 GB RAM) Benutzerprofile mit dem Sprachmodell „BestMatch V“ ein, welches Fünfwortfolgen analysieren kann.

Das Sprachmodell funktioniert ausschließlich nach statistischen Methoden, nicht nach grammatikalischen Regeln. Die Erkennungsgenauigkeit ist aufgrund dieser Funktionsweise am besten, wenn zusammenhängende Äußerungen gesprochen werden, am besten ganze längere Sätze. Dementsprechend ist die Software auf die Erkennung von gut strukturierter Sprache ausgerichtet, wie für Diktate von Briefen, Berichten und sonstigen Sachtexten typisch, nicht aber etwa für die Umsetzung von aufgezeichneten mündlichen Alltagsäußerungen mit vielen Satzbrüchen, Auslassungungen und Füllseln, erst recht nicht für die direkte Umsetzung von Gesprächen mehrerer Sprecher in Text.

Das Sprachmodell von Dragon NaturallySpeaking baut auf einem mitgelieferten Vokabular (Wort-Lexikon) auf, welches im Auslieferungszustand ca. 150.000 Wortformen (im aktiven Vordergrundvokabular) enthält. Da die Software keine grammatikalischen Regeln anwendet, sind im Vokabular nicht nur die Wortstämme, sondern alle einzelnen Wortformen hinterlegt. Dieses Vokabular lässt sich nutzerspezifisch durch Analyse eigener Texte auf unbekannte Wörter und Wortformen, aber auch durch die Korrektur bei Erkennungsfehlern um ca. weitere 150.000 Wortformen ergänzen. Um die Geschwindigkeit der Umsetzung in einem akzeptablen Bereich zu halten, ist das Vokabular in verschiedene „Slots“ gegliedert, also ein Vordergrundvokabular und ein Hintergrundvokabular (dessen Größe auf ca. 250.000−300.000 Einträge geschätzt wird). Zum aktiven Zugriff wird nur das Vordergrundvokabular im Arbeitsspeicher gehalten, Wörter aus dem Hintergrundvokabular werden hinzugefügt, nachdem sie einmal verwendet (und dabei fehlerhaft erkannt und dann korrigiert) wurden.

Das Sprachmodell der Software ist auf eine bestimmte Sprache ausgerichtet, das heißt, es ist nicht möglich, mit demselben Benutzerprofil Texte in verschiedenen Eingabesprachen zu diktieren. Um in einer anderen Sprache zu diktieren, muss vielmehr ein entsprechendes gesondertes Benutzerprofil angelegt sein und aufgerufen werden. Die deutsche Version von Dragon NaturallySpeaking ermöglicht die Anlage von Benutzerprofilen in Deutsch und Englisch. Die Software ist auch für Spanisch, Französisch, Italienisch, Niederländisch und Japanisch erhältlich, allerdings nicht in Form einzelner Module, sondern in Form separater Versionen.[3] Gebräuchliche Fremdwörter sind im mitgelieferten Vokabular enthalten; die Hinzufügung und zuverlässige Erkennung weiterer Fremdwörter, deren Aussprache nicht der üblichen Lautung im Deutschen entspricht, kann durch den Benutzer erfolgen, indem solche Wörter mit einer lautmalerischen „gesprochenen Form“ im Lexikon hinterlegt werden (Beispieleinträge: geschriebene Form „breakage“, gesprochene zum Beispiel „brehkitsch“, oder: geschriebene Form „CIA“, gesprochene „Ssie ei äi“).

Der Name der Software „NaturallySpeaking“ leitet sich von der Eigenschaft einer kontinuierlichen Spracherkennung ab. Anders als bei Spracherkennungssystemen, die bis Mitte der Neunzigerjahre des 20. Jahrhunderts verwendet wurden, und auch noch anders als beim Vorgänger DragonDictate, muss der Sprecher zwischen den einzelnen Wörtern keine unnatürlichen Sprechpausen machen (diskrete Sprache), sondern kann kontinuierlich sprechen. Die Software kann aus den Lautfolgen die (wahrscheinlichen) Wortgrenzen anhand der beschriebenen Methoden selbst ermitteln. Gleichwohl ist eine strukturierte, deutliche (aber nicht übertrieben artikulierte) und flüssige Sprechweise der beste Erfolgsgarant (der Hersteller empfiehlt, sich an der Sprechweise von Nachrichtensprechern zu orientieren).

Systemanforderungen und Features[Bearbeiten]

Dragon NaturallySpeaking läuft unter dem Betriebssystem Windows in den Versionen Windows XP (nur 32-bit), Windows Vista, Windows 7, Windows Server 2008, Windows Server 2012 sowie Windows 8; für 64-bit Windows Betriebssysteme seit der Version 10.1. Für Mac OS vertreibt Nuance eine auf demselben Spracherkennungskern (der Version 12 von NaturallySpeaking) aufbauende Software, die auf den Namen Dragon Dictate (aktuell Version 4) hört (aber nicht mit dem oben genannten Vorläufer von Dragon NaturallySpeaking zu verwechseln ist und in der Funktionalität von Korrekturen und Steuerungsmöglichkeiten für den Computer hinter Dragon NaturallySpeaking noch zurückbleibt).

Dragon NaturallySpeaking läuft nicht auf Betriebssystemen mit Linux-Kern (z.B. Ubuntu, Red Hat, openSuSE etc.) (Link: http://www.nuance.com/for-business/by-product/dragon/product-resources/frequently-asked-questions/index.htm).

Seit der Version 11 setzt NaturallySpeaking auf Mehrkern-Prozessoren eine Multipass-Technik ein, bei welcher die gleiche Äußerung parallel auf zwei Prozessorkernen analysiert und die wahrscheinlichste Äußerung unter Einsatz jeweils unterschiedlicher Hidden-Markov-Modelle ermittelt wird, um auf diese Weise die Zuverlässigkeit zu erhöhen. Um genügend Rechner-Kapazität für andere Aufgaben, insbesondere die Ziel-Anwendungen, in die hinein diktiert wird, zu behalten, empfiehlt sich daher der Einsatz auf modernen Vierkern-Prozessoren. Prozessor und Größe des Arbeitsspeichers sowie ein ausreichend großer 2nd bzw. 3rd Level Cache haben auch erheblichen Einfluss auf die Geschwindigkeit der Umsetzung. Bei einem leistungsfähigen aktuellen PC erscheint der Text zumeist unmittelbar, nachdem eine Äußerung ausgesprochen ist.

Obwohl das Programm relativ hohe Anforderungen an die Größe des Arbeitsspeichers und die Kapazität des Prozessors stellt, ist die Benutzeroberfläche eine unauffällige „Dragon-Leiste“, die auch ganz ausgeblendet werden kann. Für den Startbildschirm von Windows 8 gibt es ab der Version NaturallySpeaking 12.5 eine "Dragon Audio Bar", welche das Ein- und Ausschalten des Mikrofons auch außerhalb der Desktop-Umgebung ermöglicht. Seit der Version 11 kann zudem noch eine Seitenleiste eingeblendet werden, die kontextabhängig mögliche Steuerungsbefehle aufführt. Das Konzept geht dahin, dass der Benutzer direkt in Ziel-Anwendungen wie Textverarbeitungsprogramme diktiert, in denen dann der gesprochene Text ohne Tastatureingabe erscheint. Ebenso können kompatible Anwendungsprogramme durch gesprochene Befehle gesteuert werden (z. B. Speichern oder Drucken von Dokumenten, Formatierungen); diese Funktionen werden nicht zuletzt von Benutzern mit Bewegungseinschränkungen geschätzt. Zur Kommunikation mit Anwendungsprogrammen greift Dragon NaturallySpeaking auf die MSAA (Microsoft Active Accessibility)-Schnittstelle und die Microsoft-Sprachanwendungsschnittstelle SAPI 4 (nicht die Nachfolgeversion 5) zurück. Der volle Befehlssatz zur Steuerung von Anwendungen steht daher nur in entsprechend kompatiblen Anwendungsprogrammen wie Microsoft Word (Version 2013 ist erst ab NaturallySpeaking 12.5 kompatibel) oder Internet Explorer zur Verfügung, in der Software als „Standardfenster“ oder „Fenster mit voller Textkontrolle“ bezeichnet (in früheren Versionen auch als Select-and-Say). Andere Software wie OpenOffice Writer, Mozilla Firefox oder Mozilla Thunderbird werden teilweise unterstützt. Browser-basierte Cloud-Anwendungen wie Outlook.com werden nur teilweise unterstützt, nicht z. B. die Microsoft Office Web Apps.

Dragon NaturallySpeaking verfügt auch über ein eigenes einfaches Textverarbeitungsprogramm "DragonPad", welches funktional Microsoft WordPad ähnelt, sowie über ein Diktierfenster, welches zum Transfer von diktiertem Text in nicht kompatible Zielanwendungen benutzt werden kann. Neben kompatiblen Anwendungsprogrammen kann man mit Dragon Naturally Speaking die Windows-Oberfläche mit Sprachbefehlen steuern (im Startbildschirm von Windows 8 nur eingeschränkt).

Erkennungsgenauigkeit[Bearbeiten]

Die Software setzt ein anfängliches, etwa fünfminütiges Sprechertraining voraus, welches seit Version 9 aber auch übersprungen werden kann, sowie möglichst eine Analyse eigener Texte des Sprechers. Die Erkennungsrate liegt bei einem gut eintrainierten Profil je nach Qualität der Hardware und Deutlichkeit der Sprechweise derzeit bei mehr als 98 Prozent. Auch durch die Verwendung eines besseren als des vom Hersteller mitgelieferten Mikrofons kann die Erkennungsgenauigkeit positiv beeinflusst werden.

Traditionell galt: Je eher ein begrenztes Fachvokabular zum Einsatz kommt (etwa bei Ärzten oder Anwälten), umso besser die Erkennungsrate. Aufgrund der Steigerung der Leistungsfähigkeit des Programms und der Hardware besteht bei den aktuellen Versionen praktisch nicht mehr die Notwendigkeit, für bestimmte Fachgebiete jeweils eigene Vokabulare einzusetzen. Jedoch gilt nach wie vor, dass im Vokabular nicht bereits vorhandene Wörter auch nicht richtig erkannt werden können.

Eine Ausnahme bildet (in der deutschen Version) die Funktion zur automatischen Bildung von Komposita. Typische Bestandteile von zusammengesetzten Wörtern sind im Vokabular zusätzlich mit Merkmalen versehen, wonach sie mit anderen Wörtern zu Komposita (ggf. mit Fugen-s) zusammengezogen werden, wenn diese unmittelbar davor oder danach diktiert werden. Auch diese Funktion ist statistisch gesteuert und liefert daher zuweilen auch falsche Komposita, z.B. bei „Zusammengesetztenwörtern“.

Solche Fälle gehören zu den wenigen, in denen Erkennungsfehler von einer Rechtschreibprüfung in der Zielanwendung bemerkt werden – im Gegensatz zu falsch erkannten Wörtern wie in dem (fiktiven) Beispiel: „Der Auszubildende ging in die Leere". Ein Korrekturlesen von mittels Spracherkennung diktierten Texten ist daher empfehlenswert, worauf der Hersteller in der Lizenzvereinbarung ausdrücklich hinweist.

Versionen[Bearbeiten]

Legende: Alte Version Ältere Version; noch unterstützt Aktuelle Version Aktuelle Vorabversion Zukünftige Version
Version Veröffentlichung Editionen
Ältere Version; nicht mehr unterstützt: 1.0 Juni 1997 Personal
Ältere Version; nicht mehr unterstützt: 2.0 November 1997 Standard, Preferred, Deluxe
Ältere Version; nicht mehr unterstützt: 3.0 Oktober 1998 Point & Speak, Standard, Preferred, Professional (optionale Legal oder Medical Add-ons)
Ältere Version; nicht mehr unterstützt: 4.0 4. August 1999 Essentials, Standard, Preferred, Professional, Legal, Medical, Mobile
Ältere Version; nicht mehr unterstützt: 5.0 August 2000 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 6.0 15. November 2001 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 7.0 März 2003 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 8.0 November 2004 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 9.0 Juli 2006 Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server
Ältere Version; nicht mehr unterstützt: 9.5 Januar 2007 Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server
Ältere Version; nicht mehr unterstützt: 10.0 7. August 2008 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 10.1 März 2009 Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 11.0 24. August 2010 Home, Premium, Professional, Legal
Ältere Version; nicht mehr unterstützt: 11.0 März 2011 Medical
Ältere Version; nicht mehr unterstützt: 11.5 Juni 2011 Premium
Ältere Version; nicht mehr unterstützt: 11.5 Juli 2011 Home, Professional, Legal
Ältere Version; nicht mehr unterstützt: 12.0 August 2012 Home, Premium
Ältere Version; nicht mehr unterstützt: 12.0 September 2012 Professional, Legal
Aktuelle Version: 12.0 Dezember 2012 Medical Practice
Aktuelle Version: 12.5 Februar 2013 Home, Premium, Professional, Legal
Aktuelle Version: 13.0 August 2014 Home, Premium

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Geschichte von Dragon Systems (englisch), aufgerufen am 2. Juli 2011
  2. "Speechless" (Porträt über Janet McIver Baker), Tufts University Magazine, Herbst 2012 (englisch), aufgerufen am 6. Oktober 2012
  3. Verzeichnis der Sprachversionen auf der Herstellerseite (englisch), aufgerufen am 23. Februar 2013