Sprachdialogsystem

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Mit einem Sprachdialogsystem (engl. Voice Portal), auch IVR-System (Interactive Voice Response), können Anrufer über das Telefon oder andere akustische Medien teil- oder vollautomatisierte natürlichsprachliche Dialoge führen.

Beispiel:

Anrufer: „Wie ist das Tages-Hoch und der aktuelle Kurs der Aktie Siemens in Frankfurt?“.

Antwort des Sprachdialogsystems: „Das Tages-Hoch von Siemens in Frankfurt ist xxx,yy Euro und aktuell steht Siemens bei xxx,yy Euro.“

IVR wird in der Praxis auch als Überbegriff für jede Art der Telefonnavigation verwendet. Also auch für das Mehrfrequenzwahlverfahren („Für den Verkauf drücken Sie jetzt bitte die ‚1‘, für Service drücken Sie jetzt bitte die ‚2‘, …“).

Grundaufbau[Bearbeiten]

IVR-Systeme bestehen aus folgenden Bestandteilen [1]:

Architektur von IVR-Systemen, Daniel Wimpff, 2008

Abbildung 1: Architektur von IVR-Systemen[2]

Es sind biometrische Verfahren zur Sprecherauthentifizierung („Die Stimme als Passwort“) verfügbar und durch das Bundesamt für Sicherheit in der Informationstechnik (BSI) als sicher zertifiziert.

Wegen der Weiterentwicklung der Spracherkennung in den letzten Jahren sind aus ganzen Sätzen bestehende Dialoge möglich. Natürliche Sprache (Natural Language Understanding, NLU) setzt Intelligenz des Dialogpartners voraus. Um NLU effektiv zu nutzen, muss die künstliche Intelligenz des Dialogsystems mit den Möglichkeiten des Spracherkenners Schritt halten. Nachdem die Kerntechnologie heute als weitgehend ausgereift gilt, geraten neue Disziplinen in den Blickpunkt der Entwickler von Sprachdialogsystemen, z. B. Dialog Design.

Einsatzfelder[Bearbeiten]

IVR-Systeme ermöglichen es, Sprache als weiteres Ein-/Ausgabemedium neben Tastatur, Maus und Monitor zu nutzen.

Die Anwendungsarten lassen sich technisch einteilen in

  • reine Sprachdienste: bieten nur Interaktion über Sprache und
  • multimodale Anwendungen: kombinieren Sprachinteraktion mit anderen Ein-/Ausgabemedien (z.B. grafischen Oberflächen).

Im Folgenden werden die Anwendungsarten weiter nach Nutzergruppen eingeteilt in kommerzielle Sprachdienste (Business2Consumer, Business2Business), innerbetriebliche Sprachdienste und geräteintegrierte Sprachdienste (Hardware- und Software-Steuerung, Computerspiele).

Kommerzielle Sprachdienste[Bearbeiten]

Reine Sprachdienste kommerzieller Natur stoßen bei deutschen Konsumenten Stand 2009 meist noch auf Ablehnung. Da der Anwender nicht persönlich eingewiesen werden kann, die Funktionsweise der Systeme nicht kennt und sich durch eventuell über den Sprachdienst eingespielte Werbung belästigt fühlt, nehmen Endkunden häufig eine negative Haltung gegenüber Sprachdiensten ein. Folgende Einsatzfelder sind exemplarisch für den kommerziellen Bereich:

  • Dienste für Endkunden (Business-to-Consumer)[3]:
    • Informationen und Auskünfte am Telefon, z. B. Fahr- und Flugpläne
    • Automatische Bestellung/Reservierung am Telefon, z. B. Ticket-Hotline, Katalogbestellungen, Telefonbanking
    • Automatische Telefonzentrale/Vermittlung
    • Vorqualifikation/Autorisierung von Anrufern, z. B. Abfrage der Kundennummer bzw. PIN
    • Intelligente Wartefelder von Call-Centern
    • Stör-Ansage-Management
    • Televoting, Gewinnspiele am Telefon
  • Dienste für zwischenbetriebliche Abläufe (Business-to-Consumer):
    • (Keine umgesetzte Lösung bekannt.)

Innerbetriebliche Sprachdienste (für Mitarbeiter)[Bearbeiten]

Innerbetrieblich wird Sprachverarbeitung aktuell kaum genutzt, obwohl hier große Potenziale liegen: Der innerbetriebliche Anwender kann in die Bedienung eingewiesen werden und er arbeitet regelmäßig mit dem Sprachdienst. Dies führt zu effizienter Nutzung bei hoher Akzeptanz durch den Anwender. Die Prozesszeiten innerbetrieblicher Abläufe lassen sich stark beschleunigen bei gleichzeitiger Senkung der Fehlerraten bei der Dateneingabe durch reduzierte Medienbrüche.

  • Warenannahme
  • Qualitätsprüfung, Laufprüfung, Produktendabnahme
  • Inventur
  • Inspektion von Anlagen
  • prozessorientierte Ereignismeldung
  • Fern- und Vorortdiagnose

Geräteintegrierte Sprachdienste[Bearbeiten]

Nur wenig besser angenommen werden Stand 2009 geräteintegrierte Dialogsysteme. Allerdings erfordert eine qualitative Spracherkennung hohe Rechenleistung bei entsprechendem Energiebedarf, so dass zufriedenstellend funktionierende Lösungen zunächst nur in Bordsystemen einzelner Oberklassewagen, Computerspielen oder spezieller Anwendungssoftware anzutreffen sind. Beispiele für geräteintegrierte Spracherkennung sind:

  • Freisprecheinrichtungen in Kraftfahrzeugen
  • Navigationssysteme in Kraftfahrzeugen
  • Rufnummernwahl in Mobiltelefonen über den Personennamen
  • Computerspiele
    • Stand 2009 existieren erste Computerspiele, die Spracheingabe und -ausgabe in ihr User Interface und das Spielekonzept aufnehmen. Da Computerspiele bereits im Grafikbereich ein wesentlicher Technologietreiber sind, könnte ihnen in der Sprachtechnologie zukünftig vielleicht eine ähnliche Rolle zukommen.
  • Anwendungs-Software für körperlich Behinderte
  • kooperative Maschinensteuerung
    • Engere Kooperation zwischen Mensch und Maschine, z.B. für den Einsatz von Industrierobotern in Handwerksbetrieben, ist ein aktueller Forschungsgegenstand[4].

Vorteile und Grenzen interaktiver Sprachdialogsysteme[Bearbeiten]

Mittels Sprache kann gegenüber herkömmlichen grafischen Benutzeroberflächen direkt und natürlich kommuniziert werden:

  • Vorteile der Sprachinteraktion
    • Die Hände und der Blick bleiben frei (verbessert Ergonomie und Prozesszeit).
    • Sprache ist dem Menschen unmittelbar zugänglich (größere Qualifikationsmaßnahmen und längere Einlernzeiten zur Oberflächenbedienung entfallen).
    • Die Anforderungen an das Endgerät sind gering (es genügt ein Telefon oder Headset mit gutem Mikrofon).
    • Die allgemeine Verfügbarkeit von (Mobil-) Telefonen erlaubt neue Freiheitsgrade während der Interaktion mit Software-Anwendungen.
    • Moderne sprecherunabhängige Erkennung versteht Äußerungen verschiedener Personen ohne Training (mehrsprachige Applikationen möglich; bis zu einem gewissen Grad auch Dialekte toleriert).
    • Alle Informationselemente sind direkt erreichbar (kein mühsames Durchlaufen hierarchischer Menüs und langer Listen).
    • Innerhalb eines spezifischen Kontexts können komplexe Sätze verstanden und automatisch verarbeitet werden (zum Beispiel für die Reservierung eines Dienstwagens über einen Telefonanschluss: "Hallo. Ich hätte gerne einen Wagen für die Strecke Stuttgart - Darmstadt am Donnerstag von 6 bis 22 Uhr").
    • Visuelle Aufgaben erfordern hohe Aufmerksamkeit. Dialoge können praktisch "nebenbei" geführt werden.

Diese enorme Flexibilität von Sprachtechnologie schafft neues Innovationspotenzial z. B. für integrierte Unternehmensprozesse und deren Koordination.

NLU ist die natürlichste Form der Computerinteraktion, dennoch sind die Möglichkeiten der Darstellung von Informationen im Vergleich zu visuellen Medien eingeschränkt:

  • Grenzen der Sprachinteraktion
    • Keine 100-prozentige Erkennung
      • Problematisch sind sehr umfangreiche Vokabulare (vermehrt Ähnlichkeiten in der Aussprache verschiedener Begriffe).
      • Auch in absehbarer Zukunft keine perfekte Erkennung (Variabilität der menschlichen Stimme).
    • Raue Umweltbedingungen
      • Wiederholt auftretende Umweltgeräusche können signaltechnisch und softwaretechnisch heutzutage gut herausgefiltert werden.
      • Das Filtern menschlicher Stimmen im Hintergrund bleibt dagegen weiterhin problematisch.
    • Navigation und Menüstrukturen
      • Der Benutzer muss sich mit den Navigationsmöglichkeiten und Funktionen einer Sprachapplikation erst vertraut machen. Lösung: Abgestufte Anwendungs-Modi für Einsteiger und Fortgeschrittene zur effizienten Nutzung.
      • Bei regelmäßiger Nutzung sind überzeugende Prozesszeiten möglich.
      • Die menschliche Wahrnehmung kann lange Listen visuell gut überblicken; akustisch ist das Auflisten vieler Informationen an einem Stück jedoch schwer verständlich.
      • Beispiel: Die meisten Internet-Nutzer verwenden zuerst einfache Suchbegriffe und prüfen die Ergebnisse, um dann die Suche zu verfeinern. Dies nimmt i. d. R. zwei bis drei schnelle Iterationen in Anspruch, um die gewünschte Ergebnismenge zu erhalten. Dieser Ansatz wäre bei „gesprochenen Resultaten“ zeitintensiv und damit nicht praxistauglich.
    • Unrealistische Erwartungen
      • Man muss "die Regeln" kennen. Computer "verstehen" nicht - es ist lediglich eine Sprach-"Erkennung".
      • Heutige Spracherkennungstechniken korrelieren die gesprochenen Wörter mit einer Liste von erwarteten Äußerungen, die in ihrer Größe auf wenige tausend Einträge limitiert ist. Bei der Entwicklung eines Sprachdialogsystems müssen Annahmen getroffen werden, was gefragt werden könnte. Basierend hierauf müssen Frage/Antwort-Dialoge entwickelt werden, die den Anrufer zu einer bestimmten Information führen. Ein Dialog könnte dann beispielsweise wie folgt aussehen: „Suchen Sie nach Informationen über ein Unternehmen, einen Film, Verkehrsinformationen …?“ „Unternehmen“ „Welche Art von Unternehmen?“ „Restaurant!“ Welche Art von Restaurant?“ „Chinesisch!“ In welcher Straße, Stadtteil oder in der Nähe von welchem Lokal?“ Auch wenn dieses Vorgehen funktionieren kann und für den Anrufer hilfreich sein kann, ist es doch weit entfernt von den Möglichkeiten, die man mit einer Freitexteingabe bei einer Suchmaschine im Internet hat.
  • Neue Kulturtechnik
    • Sprachliche Interaktion mit Computern ist eine neue Kulturtechnik. Sowohl Benutzer als auch Entwickler werden sich erst im Laufe der Zeit auf gemeinsame und allgemein bekannte Dialogkonzepte (Bausteine) einigen.
    • Man sollte sich folglich nicht durch schlecht gestaltete Anwendungen irritieren lassen, sondern wirtschaftliche Lösungen einrichten und nutzen.
    • "Sprache ist das Fahrrad unter den Benutzungsschnittstellen. Es macht großen Spaß [...], aber es trägt nur eine geringe Zuladung. Nüchterne Fürsprecher wissen, dass es schwierig sein wird, das Automobil zu ersetzen: die grafische Benutzeroberfläche." ("Speech is the bicycle of user-interface design, it is great fun to use [...], but it can carry only a light load. Sober advocates know that it will be tough to replace the automobile: graphic user-interfaces", Ben Shneiderman, 1998[5]).
  • Natürliche Dialogsysteme
    • Natürliche Nutzerschnittstellen sollen es dem Nutzer ermöglichen, auf möglichst einfache Art und Weise (d.h. vor allem ohne spezielle Ausbildung oder Erfahrung) an die gewünschten Informationen zu gelangen. Aktuelle IVR Schnittstellen erfordern vom Benutzer jedoch meist, dass dieser mit der Bedienung eines solchen Systems vertraut ist. Des Weiteren wird oftmals nicht Gebrauch von der Mächtigkeit der natürlichen Sprache gemacht, da deren Interpretation nach wie vor äußerst komplex ist.
    • Die Natürlichkeit (an den Menschen angepasste Bedienung) eines Dialogsystems lässt sich anhand folgender Eigenschaften beschreiben: [6]
      • Adaptivität
      • Implizite Bestätigung
      • Nachfragen und Ambiguitätenresolution
      • Korrekturmöglichkeiten
      • Überbeantwortung
      • Interpretation von Verneinungen
      • Diskurs und Rückbezüge
      • Interpretation von Umgangssprache
      • Art der Formulierung / Sprachgenerierung
      • Sozialverhalten
      • Qualität der Spracherkennung und -synthese
    • Grenzen durch mangelnde Entwicklungsumgebungen
      • Neben dem Endnutzer ist auch der Entwickler zu betrachten. Solange es keine einfach zu bedienenden Werkzeuge zur Erstellung von Dialogsystemen gibt, werden auch die Ergebnisse nicht nutzerfreundlich sein: "Bei einem Vergleich der Systeme fällt jedoch auf, dass viele der Eigenschaften natürlicher Dialogsysteme noch nicht umgesetzt worden sind. Dies liegt vor allem am Fehlen eines allumfassenden Dialogmodellierungs- und -implementierungswerkzeugs."[6]

Kriterien für den Einsatz von Sprachdialogsystemen[Bearbeiten]

Für den Einsatz von Sprachtechnologien in betrieblichen Anwendungen sprechen folgende Kriterien [7]:

  • Der Mitarbeiter ...
    • hat wenig Computererfahrung
    • hat eine Schreib-/Leseschwäche
    • spricht nur Fremdsprachen
  • Die Aktivität fordert ...
    • freie Hände und freier Blick
    • Input leicht in Worte zu fassen
    • Mobilität
    • häufig wiederholte Aufgaben
  • Das Arbeitsumfeld ergibt
    • visuelle Wahrnehmung erschwert
    • Platzmangel, kein Bildschirm/Tastatur
    • Wechsel zwischen Tätigkeit und Computerarbeitsplatz unergonomisch oder zeitintensiv

Einzelnachweise[Bearbeiten]

  1. nach: Jürgen Hoffmeister, Christel Müller, Engelbert Westkämper: Sprachtechnologie in der Anwendung - Sprachportale, S. 85, Springer Berlin Heidelberg, 2008, ISBN 978-3-540-72435-3
  2. nach: Jürgen Henke, Ronny Egeler: Spracherfassung in industriellen EDV-Systemen, Folie 7, Vortrag Fraunhofer IPA, Stuttgart, 2008, PDF-Dokument
  3. vergleiche: Susanne Feldt, Kai-Werner Fajga, Christoph Pause: Voice Business Jahrbuch 2009, S. 30-68, telepublic Verlag, Hannover, 2008, ISBN 978-3-939752-01-1
  4. Christopher Parlitz, PowerMate - Schrankenlose Mensch-Roboter-Kooperation, Fraunhofer IPA, 2005, PDF-Dokument
  5. Ben Shneiderman, Designing the User Interface: Strategies for Effective Human-Computer Interaction, 3rd edition, Addison-Wesley, 1998
  6. a b Markus Berg, Natürlichsprachlichkeit in Dialogsystemen, Informatik-Spektrum 36/4, pp. 371-381, Springer, 2013, [1]
  7. Matthias Peissner: Präsentation - Erfolgsfaktoren für den Einsatz von Sprachinteraktion, Folie 9, Stuttgart, 2008, PDF-Dokument

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]