Dieser Inhalt wurde automatisch aus dem Englischen übersetzt, und kann Fehler enthalten. Erfahre mehr über dieses Experiment.

View in English Always switch to English

Web Speech API

Die Web Speech API ermöglicht es Ihnen, Sprachdaten in Webanwendungen zu integrieren. Die Web Speech API besteht aus zwei Teilen: SpeechSynthesis (Text-zu-Sprache) und SpeechRecognition (Asynchrone Spracherkennung).

Web-Sprachkonzepte und Verwendung

Die Web Speech API ermöglicht es Webanwendungen, Sprachdaten zu verarbeiten. Sie hat zwei Komponenten:

  • Spracherkennung wird über das SpeechRecognition-Interface zugegriffen, das die Fähigkeit bietet, Sprachkontext aus einer Audioquelle zu erkennen und es Ihrer App ermöglicht, angemessen zu reagieren. In der Regel verwenden Sie den Konstruktor des Interfaces, um ein neues SpeechRecognition-Objekt zu erstellen. Dieses Objekt bietet eine Anzahl von Ereignis-Handlern, um zu erkennen, wann Sprache von dem Mikrofon des Geräts (oder von einer Audiospur) eingehend ist. Sie können angeben, ob die Spracherkennung einen vom Nutzer bereitgestellten Dienst (Standard) verwenden oder lokal im Browser ausgeführt werden soll.
  • Sprachsynthese wird über das SpeechSynthesis-Interface zugegriffen, eine Text-zu-Sprache-Komponente, die es Programmen ermöglicht, ihren Textinhalt zu lesen (normalerweise über den Standard-Sprachsynthesizer des Geräts). Verschiedene Stimmtypen werden durch SpeechSynthesisVoice-Objekte repräsentiert, und verschiedene Textabschnitte, die gesprochen werden sollen, werden durch SpeechSynthesisUtterance-Objekte repräsentiert. Sie können diese sprechen lassen, indem Sie sie an die SpeechSynthesis.speak()-Methode übergeben.

Weitere Details zur Nutzung dieser Funktionen finden Sie unter Verwendung der Web Speech API.

Schnittstellen der Web Speech API

Spracherkennung

SpeechRecognition

Das Kontroll-Interface für den Erkennungsdienst; dieses behandelt auch das SpeechRecognitionEvent, das vom Erkennungsdienst gesendet wird.

SpeechRecognitionAlternative

Repräsentiert ein einzelnes, vom Spracherkennungsdienst erkanntes Wort.

SpeechRecognitionErrorEvent

Repräsentiert Fehlermeldungen vom Erkennungsdienst.

SpeechRecognitionEvent

Das Ereignisobjekt für die result- und nomatch-Ereignisse und enthält alle Daten, die mit einem vorläufigen oder endgültigen Spracherkennungsergebnis verbunden sind.

SpeechRecognitionPhrase

Repräsentiert einen Satz, der in die Spracherkennungsmotor zur kontextabhängigen Bevorzugung eingefügt werden kann.

SpeechRecognitionResult

Repräsentiert ein einzelnes Erkennungsergebnis, das möglicherweise mehrere SpeechRecognitionAlternative-Objekte enthält.

SpeechRecognitionResultList

Repräsentiert eine Liste von SpeechRecognitionResult-Objekten oder ein einzelnes, wenn Ergebnisse im continuous-Modus erfasst werden.

Sprachsynthese

SpeechSynthesis

Das Kontroll-Interface für den Sprachdienst; dieses kann verwendet werden, um Informationen über die auf dem Gerät verfügbaren Synthesestimmen abzurufen, Sprache zu starten und zu pausieren und andere Befehle nebenbei auszuführen.

SpeechSynthesisErrorEvent

Enthält Informationen über Fehler, die bei der Verarbeitung von SpeechSynthesisUtterance-Objekten im Sprachdienst auftreten.

SpeechSynthesisEvent

Enthält Informationen über den aktuellen Zustand der in den Sprachdienst verarbeiteten SpeechSynthesisUtterance-Objekte.

SpeechSynthesisUtterance

Repräsentiert eine Sprachanforderung. Es enthält den Inhalt, den der Sprachdienst lesen soll, sowie Informationen darüber, wie er gelesen werden soll (z. B. Sprache, Tonhöhe und Lautstärke).

SpeechSynthesisVoice

Repräsentiert eine Stimme, die das System unterstützt. Jede SpeechSynthesisVoice hat ihren eigenen relativen Sprachdienst, einschließlich Informationen über Sprache, Name und URI.

Window.speechSynthesis

Spezifiert als Teil eines [NoInterfaceObject]-Interfaces namens SpeechSynthesisGetter, und implementiert vom Window-Objekt, bietet die speechSynthesis-Eigenschaft Zugriff auf den SpeechSynthesis-Controller und somit den Einstiegspunkt in die Sprachsynthesefunktionalität.

Veraltete Schnittstellen

Das Konzept der Grammatik wurde aus der Web Speech API entfernt. Verwandte Funktionen bleiben in der Spezifikation und werden von unterstützenden Browsern aus Gründen der Rückwärtskompatibilität weiterhin erkannt, haben jedoch keinen Einfluss auf Spracherkennungsdienste.

SpeechGrammar Veraltet

Repräsentiert Wörter oder Muster von Wörtern, die der Erkennungsdienst erkennen soll.

SpeechGrammarList Veraltet

Repräsentiert eine Liste von SpeechGrammar-Objekten.

Fehler

Für Informationen über Fehler, die von der Speech API gemeldet werden (zum Beispiel "language-not-supported" und "language-unavailable"), siehe die folgende Dokumentation:

Sicherheitsüberlegungen

Der Zugriff auf die lokale Spracherkennung-Funktionalität der Web Speech API wird durch die on-device-speech-recognition- und Permissions-Policy-Direktive kontrolliert.

Insbesondere wo eine definierte Richtlinie die Nutzung blockiert, werden alle Versuche, die Methoden SpeechRecognition.available() oder SpeechRecognition.install() der API aufzurufen, fehlschlagen.

Beispiele

Unsere Beispiele der Web Speech API veranschaulichen Spracherkennung und -synthese.

Spezifikationen

Specification
Web Speech API
# speechreco-section
Web Speech API
# tts-section

Browser-Kompatibilität

api.SpeechRecognition

api.SpeechSynthesis

Siehe auch