NETtalk

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

NETtalk ist ein künstliches neuronales Netz, das Mitte der 1980er Jahre von Terrence J. Sejnowski und Charles Rosenberg erstellt wurde und geschriebenen (englischsprachigen) Text in eine Codierung der Aussprache umwandelt (es werden also durch Sprachsynthese Grapheme in Phoneme umgewandelt).

Aufbau[Bearbeiten | Quelltext bearbeiten]

NETtalk ist ein aus drei Schichten aufgebautes Multilagenperzeptron mit sieben Gruppen zu je 29 Neuronen in der Eingabe-, 80 Neuronen in der versteckten und 26 Neuronen in der Ausgabeschicht. Jede der Gruppen in der Eingabeschicht codiert einen Buchstaben des Eingabeworts (die 29 Neuronen entsprechen dabei den 26 Buchstaben des Alphabets und jeweils einem Neuron für Leerzeichen, Satzende und sonstiger Zeichensetzung), die vierte Gruppe repräsentiert dabei den Buchstaben, dessen zugehöriges Phonem das Netz ermitteln soll, die restlichen Gruppen stellen den für die korrekte Ermittlung unerlässlichen Kontext der drei vorhergehenden bzw. nachfolgenden Buchstaben dar.

Zum Training des Netzes wurden korrekte Graphem-Phonem-Kombinationen verwendet, es handelt sich also um eine Methode des überwachten Lernens.

Leistung[Bearbeiten | Quelltext bearbeiten]

Nach 50 Trainingsdurchläufen auf einem Datensatz von 1024 Wörtern erreichte das Netz eine Genauigkeit von 95 % auf den Trainings- und 78 % auf den Testdaten.

Einfluss[Bearbeiten | Quelltext bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.

In den 1980er Jahren stellte NETtalk eine der aufsehenerregenden Anwendungen dar, die viele Wissenschaftler wieder dazu brachte, Forschung im Bereich des Konnektionismus durchzuführen. Kritiker bezweifeln allerdings, dass dies an der Qualität der Architektur lag (ähnliche Erfolge konnten auch mit 'herkömmlichen' Programmen erzielt werden). Vielmehr wird auf die Präsentation des Lernvorgangs des Netzes verwiesen: Die vom Netz ausgegebenen Phoneme wurden als gesprochene Sprache ausgegeben, das Programm begann also mit unverständlicher Aneinanderreihung von Lauten und verbesserte sich allmählich zu verständlicher Sprache. Darüber hinaus wurde für diese Präsentation eine Stimme mit hoher Tonlage verwendet, so dass sich für die Zuhörer der Eindruck ergab, ein Kind lerne zu sprechen.

Tonbeispiel[Bearbeiten | Quelltext bearbeiten]

http://www.cnl.salk.edu/Media/nettalk.mp3

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]