×

Fehler

[OSYouTube] Alledia framework not found

Die Sprachsynthese

Die Erschaffung einer künstlichen Stimme

Erst in den dreißiger Jahren des letzten Jahrhunderts gelang es Homer Dudley, auf elektronischem Wege eine synthetische Sprache zu erzeugen. Er nannte sein Gerät Vocoder, was die Abkurzung des englischen Ausdrucks "voice" und "coder" ist (Stimmcodierer). Da für die Bedienung und Benutzung eines solchen Geräte, das Wissen über die Funktion und den Aufbau unverzichbar ist, werden im folgenden alle wichtigen Details besprochen. Leider handelt es sich hierbei um physikalische/naturwissenschaftliche Grundlagen. Diese sind jedoch umbedingt erforderlich .

Siehe auch: ELEKTOR-VOCODER

Da es in diesem Artikel um die Sprachsynthese geht, fangen wir mit der menschlichen Stimme an.

Die Menschliche Stimme

Unter den verschiedenartigen menschlichen Lauten gibt es zwei Hauptgruppen oder Stimmarten: stimmhafte Laute wie a, e, i. o, u und stimmlose oder Zischlaute wie f, sch, z. Bei den stimmhaften Lauten unterbrechen die Stirnmbändchen im Kehlkopf periodisch den Luftstrom der Luftröhre und erzeugen dabei dreieckförmige Schwingungen. Die Frequenz bestimmt die musikalische Tonhöhe des stimmhaften Lautes. Die normalen Stimmlagen bei Männer und Frauen umfassen den Bereich von etwa 90 Hz bis 400 Hz. Die Schwingungen des Kehlkopfes enthalten neben der Grundschwingung noch viele harmonische Oberschwingungen bis über 4 kHz. Die Mund-, Nasen-und Rachenhohlräume stellen ein Filter dar, das bestimmte Frequenzbereiche selektieren und den typischen Spektralverlauf der einzelnen stimmhaften Laute formen. Bei stimmlosen Lauten schwingen die Stimmbänder nicht, sondern lassen den Luftstrom ungehindert passieren. Die Zischlaute sind Windgeräusche, die durch das Vorbeiströmen der Luft an Gaumen, Zunge, Zähnen und Lippen entstehen. Ihnen entsprechen gefilterte Rauschspektren mit ebenfalls typischen Hüllkurven für die einzelnen stimmlosen Laute.

Die zwei Hauptfunktionsblöcke eines Vocoders

Jeder Vocoder besteht aus einem Analyse- und einem Syntheseteil.

Die Analyse :

Die Analyse ermittelt aus dem eingespeisten Sprachsignal Steuersignale. Diese werden in einer geeigneten Form übertragen und steuern im Syntheseteil eine elektronische Nachbildung des menschlichen Sprechorgans, die eine künstliche Sprache liefert. Die Analyseseite besteht normalerweise aus zwei Blöcken, der Spektralanalyse und der Stimmartanalyse. Die Spektralanalyse ermittelt den jeweiligen spektralen Kurvenverlauf der Sprechlaute. Sie liefert eine grössere Anzahl von Steuersignalen, die Zuordnungen für die Stellungen der Mund-, Nasen- und Rachenfilter darstellen. Die Stimmartanalyse stellt fest, ob die Stimmbänder schwingen oder ob sie den Luftstrom ungehindert passieren lassen. Es wird also zwischen stimmhaft oder stimmlos Laut unterschieden. Der Ausgang der Stimmartanalyse liefert ein Ja/Nein-Signal für die Funktionsart des Kehlkopfes. Bei einigen Vocodern gibt es noch eine dritte Analyseeinheit. Sie sucht aus dem Sprachsignal die Grundwelle heraus und liefert die Grundfrequenz des Stimmbändchensignals.

Die Synthese :

Der Syntheseteil besteht auch aus zwei einzelnen Funktionsblöcken, der Spektralsynthese und dem Stimmgenerator. Aus den Spektralwerten und dem Stimmsignal erzeugt die Spektralsynthese und der Stimmgenerator das synthetische Sprachsignal. Die Spektralsynthese und der Stimmgenerator stellt somit eine Nachbildung der menschlich Stimmorgane dar. Die Spektralsynthese erhällt den jeweiligen spektralen Kurvenverlauf der Sprechlaute als Steuersignale von der Analyseeinheit. Mit diesen Steuersignalen werden Filter gesteuert, die die Zuordnungen für die Stellungen der Mund-, Nasen- und Rachenfilter simulieren.Die Stimmart bestimmt die Art des Signals im Stimmgenerator. Das ist bei stimmlosen Lauten ein Rauschen und bei stimmhaften Lauten eine Dreieckwelle mit einem geeigneten Obertonspektrum.

Funktionsprinzip eines Vocoders

Die Analyse

Das vom Microfon kommende Sprachsignal gelangt über einen Eingangsverstärker an einen Satz von Bandfiltern, die sogenannte Filterbank. Jedes der Kanalfilter analysiert einen kleinen Bereich des Sprachbandes. Die Zahl der Filter von Vocodern reicht von etwa 10 bis hin zu 24. Mit der Anzahl der Kanäle erhöht sich die Genauigkeit der Analyse und damit die Wiedergabequalität aber auch der entsprechende Schaltungsaufwand.

Die Spektralanalyse

Das Sprachsignal wird also in viele Bänder unterteilt, die dann jedes für sich analysiert wird. Am Beispiel das "a" : Im Bereich von 500 Hz bis 1000 Hz sind viele kräftigen Formanten. Es werden also in allen Bändern, die diesen Bereich umfassen ein Analysesignal gebildet. Dieses geschiet durch eine Gleichrichtung und durch die Beseitigung der negativen Halbwelle. Aus diesem Signal wird eine Hüllkurve gebildet, die an den Ausgangsbuchsen der Syntheseeinheit zur Verfügung steht. Die Syntheseamplituden und Hüllkurvenformen enthalten die Informationen, die es ermöglichen die Sprache später zu synthetisieren. Je mehr Bänder man hat, umso mehr Analysesignale hat man auch.

Die Stimmartanalyse

Für die bereits genannte Stimmartanalyse gibt es mehrere Verfahren. Die meißten beruhen auf einer Amplitudenauswertung des Sprachspektrums.

Die Stimmartanalysen nutzen aus, dass sich die spektrale Verteilung bei den beiden Stimmarten deutlich unterscheidet. Stimmhafte Laute haben im Frequenzbereich bis 1,5 kHz immer deutlich höhere Pegel als im Bereich über 4 kHz, bei stimmlosen Lauten ist es genau umgekehrt.Diese Schaltung funktioniert sehr zuverlässig, wenn ein breitbandiges Sprachsignal anliegt, was in dem vorliegenden Anwendungsfall leicht erfüllbar ist.Es steht also ein Synthesesignal zu verfügung gestellt, daß nur die zwei Zustände, stimmhafte und stimmlose Laute, dargestellt.

Die Synthese

Die Synthese ist die Umkehrung der Analyse.

Die Spektralsynthese

Die Spektralsyntheseeinheit besteht aus der selben Anzahl von Filtern mit den gleichen Frequenzen wie in der Analyseeinheit. Jedes dieser Filter ist ein Verstärker nachgeschaltet, der durch eine Steuerspannung in der Verstärkung variabel ist. Wenn jetzt die Analysehüllkurven der Analysekanäle die VCAs der Syntheseeinheit steuern, ist bereits die charakteristische Amplitudenmodulation der Sprachgrundfrequenzgegeben gegeben. In einer anschliessenden Additionsschaltung entsteht aus den Teilbändern aller Kanäle das vollständige, synthetischen Sprachsignal. Der Mensch versteht die synthetische Sprache gut, da die wichtigen Formanten mit genügender Genauigkeit erhalten sind.

Die Stimmarterzeugung

Üblicheweise arbeitet ein Vocoder immer mit einer dreieckförmige Schwingungen Signal von etwa 90 Hz bis 400 Hz für die stimmhaften Laute.Der interne Rauschgenerator dagegen eignet sich gut zur Erzeugung des stimmlosen Ersatzsignals. Die automatische Umschaltung erfolgt durch das Analysesignal der Stimmartanalyse.