Sprachdialogsystem
aus Wikipedia, der freien Enzyklopädie
Mit einem Sprachdialogsystem (engl. Voice Portal), auch IVR-System (Interactive Voice Response), können Anrufer über das Telefon oder andere akustische Medien teil- oder vollautomatisierte natürlichsprachliche Dialoge führen.
Beispiel: Anrufer: „Wie ist das Tages-Hoch und der aktuelle Kurs der Aktie Siemens in Frankfurt?“. Antwort des Sprachdialogsystems: „Das Tages-Hoch von Siemens in Frankfurt ist xxx,yy Euro und aktuell steht Siemens bei xxx,yy Euro.“
IVR wird in der Praxis auch als Überbegriff für jede Art der Telefonnavigation verwendet. Also auch für das Mehrfrequenzwahlverfahren („Für den Verkauf drücken Sie jetzt bitte die ‚1‘, für Service drücken Sie jetzt bitte die ‚2‘, …“).
Inhaltsverzeichnis |
[Bearbeiten] Grundaufbau
IVR-Systeme bestehen aus folgenden Bestandteilen:
- Spracherkennung (Automated Speech Recognition, ASR),
- Sprachsynthese (Text-to-Speech, TTS),
- Dialogablauf-Interpreter (z. B. VoiceXML-Browser),
- IP-Netz- bzw. Telefonnetz-Schnittstellen.
Es sind auch biometrische Verfahren zur Sprecher-Authentifizierung („Die Stimme als Passwort“) verfügbar und durch das Bundesamt für Sicherheit in der Informationstechnik (BSI) als sicher zertifiziert.
Wegen der Weiterentwicklung der Spracherkennung in den letzten Jahren sind aus ganzen Sätzen bestehende Dialoge möglich. Natürliche Sprache (Natural Language Understanding, NLU) setzt Intelligenz des Dialogpartners voraus. Um NLU effektiv zu nutzen, muss die künstliche Intelligenz des Dialogsystems mit den Möglichkeiten des Spracherkenners Schritt halten. Nachdem die Kerntechnologie heute als weitgehend ausgereift gilt, geraten neue Disziplinen in den Blickpunkt der Entwickler von Sprachdialogsystemen, z. B. Dialog Design.
[Bearbeiten] Technische Einschränkungen
NLU ist die natürlichste Form der Kommunikation, aber dennoch sind die Möglichkeiten der Darstellung von Informationen im Vergleich zu visuellen Medien eingeschränkt, z. B.:
- Die meisten Internet-Nutzer verwenden zuerst einfache Suchbegriffe, prüfen die Ergebnisse – um dann die Suche zu verfeinern. Dies nimmt i. d. R. zwei bis drei schnelle Iterationen in Anspruch um die gewünschte Ergebnismenge zu erhalten. Dieser Ansatz wäre bei „gesprochenen Resultaten“ nicht anwendbar, da dies viel zu lange dauern würde.
- Heutige Spracherkennungstechniken korrelieren die gesprochenen Wörter mit einer Liste von erwarteten Äußerungen, die in ihrer Größe auf wenige tausend Einträge limitiert ist. Bei der Entwicklung eines Sprachdialogsystems müssen Annahmen getroffen werden, was gefragt werden könnte. Basierend hierauf müssen Frage/Antwort-Dialoge entwickelt werden, die den Anrufer zu einer bestimmten Information führen. Ein Dialog könnte dann beispielsweise wie folgt aussehen: „Suchen Sie nach Informationen über ein Unternehmen, einen Film, Verkehrsinformationen …?“ „Unternehmen“ „Welche Art von Unternehmen?“ „Restaurant!“ Welche Art von Restaurant?“ „Chinesisch!“ In welcher Straße, Stadtteil oder in der Nähe von welcher Lokation?“ Auch wenn dieses Vorgehen funktionieren kann und für den Anrufer hilfreich sein kann – es ist weit entfernt von den Möglichkeiten, die man mit einer Freitexteingabe bei einer Suchmaschine im Internet hat.
[Bearbeiten] Einsatzbeispiele
IVR-Systeme ermöglichen es, Sprache als weiteres Ein-/Ausgabemedium neben Tastatur, Maus und Monitor zu nutzen.
Die Anwendungsarten lassen sich technisch einteilen in
- reine Sprachdienste: bieten nur Interaktion über Sprache und
- multimodale Anwendungen: kombinieren Sprachinteraktion mit grafischen Oberflächen.
Reine Sprachdienste kommerzieller Natur stoßen bei deutschen Konsumenten Stand 2009 meist noch auf Ablehnung. Da der Endkunde nicht persönlich eingewiesen werden kann, die Funktionsweise der Systeme nicht kennt und sich durch eventuell über den Sprachdienst eingespielte Werbung belästigt fühlt, nehmen Endkunden häufig eine negative Haltung gegenüber Sprachdiensten ein. Folgende Einsatzfelder sind exemplarisch für den kommerziellen Verbraucherbereich:
- Kommerzielle Sprachdienste (Business2Consumer):
- Informationen und Auskünfte am Telefon, z. B. Fahr- und Flugpläne
- Automatische Bestellung/Reservierung am Telefon, z. B. Ticket-Hotline, Katalogbestellungen, Telefonbanking
- Automatische Telefonzentrale/Vermittlung
- Vorqualifikation/Autorisierung von Anrufern, z. B. Abfrage der Kundennummer bzw. PIN
- Intelligente Wartefelder von Call-Centern
- Stör-Ansage-Management
- Televoting, Gewinnspiele am Telefon
Nur wenig besser angenommen werden Stand 2009 geräteintegrierte Dialogsysteme. Allerdings erfordert eine qualitative Spracherkennung hohe Rechenleistung bei entsprechendem Energiebedarf, so dass zufriedenstellend funktionierende Lösungen Stand 2009 primär in Navigationssystemen einzelner Oberklassewagen anzutreffen sind. Beispiele für geräteintegrierte Spracherkennung sind:
- Geräteintegrierte Sprachdienste:
- Navigationssysteme in Kraftfahrzeugen
- Rufnummernwahl in Mobiltelefonen über den Personennamen
Innerbetrieblich wird Sprachverarbeitung aktuell kaum genutzt, obwohl hier große Potenziale liegen: Der innerbetriebliche Anwender kann in die Bedienung eingewiesen werden und er arbeitet regelmäßig mit dem Sprachdienst. Dies führt zu effizienter Nutzung bei hoher Akzeptanz durch den Anwender. Die Prozesszeiten innerbetrieblicher Abläufe lassen sich stark beschleunigen bei gleichzeitiger Senkung der Fehlerraten bei der Dateneingabe durch reduzierte Medienbrüche.
- Innerbetriebliche Sprachdienste (Sprachdienste für Mitarbeiter):
- Warenannahme
- Qualitätsprüfung, Laufprüfung, Produktendabnahme
- Inventur
- Inspektion von Anlagen
- prozessorientierte Ereignismeldung
- Fern- und Vorortdiagnose
- kooperative Maschinensteuerung
Stand 2009 existieren erste Computerspiele, die Spracheingabe und -ausgabe in ihr User Interface und das Spielekonzept aufnehmen. Da Computerspiele bereits im Grafikbereich ein wesentlicher Technologietreiber sind, könnte ihnen in der Sprachtechnologie zukünftig vielleicht eine ähnliche Rolle zukommen.
[Bearbeiten] Vorteile und Grenzen interaktiver Sprachdialogsysteme
Mittels Sprache kann gegenüber herkömmlichen grafischen Benutzeroberflächen direkt und natürlich kommuniziert werden:
- Vorteile der Sprachinteraktion
- Die Hände und der Blick bleiben frei (verbessert Ergonomie und Prozesszeit).
- Sprache ist jedem Menschen unmittelbar zugänglich (grössere Qualifikationsmaßnahmen und längere Einlernzeiten zur Oberflächenbedienung entfallen).
- Die Anforderungen an das Endgerät sind gering (es genügt ein Telefon oder Lautsprecher und Mikrofon).
- Die allgemeine Verfügbarkeit von (Mobil-) Telefonen erlaubt neue Freiheitsgrade während der Interaktion mit Software-Anwendungen.
- Moderne sprecherunabhängige Erkennung versteht Äußerungen verschiedener Personen ohne Training (mehrsprachige Applikationen möglich; bis zu einem gewissen Grad auch Dialekte).
- Alle Informationselemente sind direkt erreichbar (kein mühsames Durchlaufen hierarchischer Menüs und langer Listen).
- Innerhalb eines spezifischen Kontexts können komplexe Sätze verstanden und automatisch verarbeitet werden (zum Beispiel für die Reservierung eines Dienstwagens über einen Telefonanschluss: "Hallo. Ich hätte gerne einen Wagen für die Strecke Stuttgart - Darmstadt am Donnerstag von 6 bis 22 Uhr").
- Visuelle Aufgaben erfordern hohe Aufmerksamkeit. Dialoge können praktisch "nebenbei" geführt werden.
- Benutzerauthentifizierung: Sichere Identifikation durch Stimmenanalyse ist bereits möglich (verhindert Missbrauch).
Diese enorme Flexibilität von Sprachtechnologie schafft neues Innovationspotenzial für integrierte Unternehmensprozesse und deren Koordination.
- Grenzen der Sprachinteraktion
- Keine 100-prozentige Erkennung
- Problematisch sind sehr umfangreiche Vokabulare (vermehrt Ähnlichkeiten in der Aussprache verschiedener Begriffe).
- Auch in absehbarer Zukunft keine perfekte Erkennung (Variabilität der menschlichen Stimme).
- Raue Umweltbedingungen
- Wiederholt auftretende Umweltgeräusche können signaltechnisch und softwaretechnisch heutzutage gut herausgefiltert werden.
- Das Filtern menschlicher Stimmen im Hintergrund bleibt dagegen weiterhin problematisch.
- Navigation in Menüstrukturen
- Der Benutzer muss sich mit den Navigationsmöglichkeiten und Funktionen einer Sprachapplikation erst vertraut machen.
- Lösung: Abgestufte Anwendungs-Modi für Einsteiger und Power User zur effizienten Nutzung.
- Bei regelmäßiger Nutzung sind überzeugende Prozesszeiten möglich.
- Unrealistische Erwartungen
- Man muss "die Regeln" kennen. Computer "verstehen" nicht - es ist lediglich eine Sprach-"Erkennung".
- Keine 100-prozentige Erkennung
- Neue Kulturtechnik
- Sprachliche Interaktion mit Computern ist eine neue Kulturtechnik! Sowohl Benutzer als auch Entwickler werden sich erst im Laufe der Zeit auf gemeinsame und allgemein bekannte Dialogkonzepte (Bausteine) einigen.
- Man sollte sich folglich nicht durch schlecht gestaltete Anwendungen irritieren lassen, sondern wirtschaftliche Lösungen einrichten.
- Im industriellen Einsatz lernen die Anwender dank wiederholter Nutzung schnell dazu und können ggf. kurz eingewiesen werden. Eine Evaluation der Dialogführung gemeinsam mit dem Benutzer am Einsatzort ist problemlos möglich.
[Bearbeiten] Kriterien für den Einsatz von Sprachdialogsystemem
Für den Einsatz von Sprachtechnologien in betrieblichen Anwendungen sprechen folgende Kriterien:
- Der Mitarbeiter ...
- hat wenig Computererfahrung
- hat eine Schreib-/Leseschwäche
- spricht nur Fremdsprachen
- Die Aktivität fordert ...
- freie Hände und freier Blick
- Input leicht in Worte zu fassen
- Mobilität
- häufig wiederholte Aufgaben
- Das Arbeitsumfeld ergibt
- visuelle Wahrnehmung erschwert
- Platzmangel, kein Bildschirm/Tastatur
- Wechsel zwischen Tätigkeit und Computerarbeitsplatz unergonomisch oder zeitintensiv

