Voicification

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Als Voicification versteht man die Gestaltung von Mensch-Maschine-Interaktionen mit der menschlichen Stimme als Eingabemedium und/oder Ausgabemedium.

Generelle Beispiele von Nutzungsvorgängen mit Voicification[Bearbeiten | Quelltext bearbeiten]

  • Spracheingabe von Informationen in eine App oder Anwendung (z. B. Lernapps, Terminvereinbarung, Übersetzungsprogramm, automatisierte Meldung von Versicherungsschäden, automatisierte Übermittlung von z. B. Strom- oder Gaszählerständen)
  • Sprachausgabe von Daten (z. B. Patienten-Datenbank, juristische Datenbank mit Gerichtsurteilen)
  • Sprachein- und ausgabe bei Informationssystemen (z. B. Terminals bzw. Kiosk-Systeme in Shopping Malls, Krankenhäusern, Flughäfen)

Prozesskomponenten[Bearbeiten | Quelltext bearbeiten]

Von Voicification kann gesprochen werden, wenn mindestens einer der nachfolgend genannten Prozesskomponenten im Gesamtprozess umgesetzt wird:

Spracheingabe[Bearbeiten | Quelltext bearbeiten]

Technische Konzepte bzw. Methoden der Spracheingabe sind z. B. Speech-to-text (STT) oder Automatic Speech Recognition (ASR). Typische Eingabemedien (wie auch Medien der Sprachausgabe, s. unten) sind sogenannte Smart-Speaker (z. B. Amazon Alexa, Amazon Echo, Google Nest, Apple HomePod, Telekom Smart Speaker) oder Voice Chatbots auf Smartphones oder sprachgesteuerte Software (z. B. Diktiersoftware).

Sprachverarbeitung[Bearbeiten | Quelltext bearbeiten]

Unter Sprachverarbeitung versteht man Konzepte bzw. Methoden, die die vorliegenden Sprachdaten semantisch zuordnen, kategorisieren oder im Sinne des vorliegenden Dienstes für eine Weiterverarbeitung vorbereiten, logisch zuordnen und/oder bearbeiten. Methoden sind z. B. Natural Language Understanding (NLU), Natural language processing (NLP) oder, sofern Formate oder Komponenten künstlicher Intelligenz beteiligt sind, auch Conversational AI (CAI).

Sprachausgabe[Bearbeiten | Quelltext bearbeiten]

Unter Sprachausgabe (siehe auch Sprachsynthese) versteht man die mediale Äußerung von Ausgabeinformationen in Form von akustisch wahrnehmbarer Sprache. Beispiele:

  • Sprachausgabe über Smart-Speaker (Beispiele siehe Kapitel 'Spracheingabe' oben)
  • Sprachausgabe über Smartphones
  • Sprachausgabe über weitere Endgeräte im Haushalte, z. B. Smart TVs
  • Sprachausgabe von Informationen per öffentlicher Lautsprecheransagen (z. B. auf Bahnhöfen)
  • Sprachausgabe von automatisierten Call-Center-Informationen per Telefon

Technische Konzepte bzw. Methoden der Sprachausgabe sind z. B. Speech-to-text (STT).

Modulare Gesamtsysteme[Bearbeiten | Quelltext bearbeiten]

Mittlerweile existieren auf dem Markt eine Reihe von Anbietern, die zu oben genannten Prozesskomponenten modulare Gesamt-, Komplett- oder Plattform-Lösungen anbieten. Kunden haben hier den Vorteil, sich bei Voicification-Erwägungen an einen einzelnen Anbieter zu wenden, der gesamte Projektierung bzw. Implementierung von Einzel- oder Gesamtlösungen übernimmt. Anbieter sind z. B. Microsoft (MS Azure[1]) und Deutsche Telekom (Voicification Suite[2]).

Quellen[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. MS Azure
  2. Telekom Voicification Suite