

Mit Open Voice Kapitel 10 werden erneut bedeutende Meilensteine erreicht. Dieses Kapitel fasst die wichtigsten Verbesserungen an Open Voice zusammen – von erweiterter Sprachunterstützung über optimierte Hardware-Kompatibilität bis hin zu effizienteren und flexibleren Entwicklungsprozessen. Für technisch versierte Nutzer, die Open Source Sprachassistenten suchen, ist diese Veröffentlichung ein wichtiger Schritt hin zu einem robusteren und zugänglichen Sprachökosystem in Home Assistant.
Inhaltsverzeichnis
1. Open Voice aktiv mitgestalten
2. ESPHome integriert vollständigen Sprachassistenten-Support2.1 Von der Vorschau zum vollwertigen Voice-Assistenten
2.2 Upstreaming der externen Komponenten für ESPHome
2.3 Beispiel CPU-Last-Reduktion
3. Eigene Voice Preview Edition bauen: Hardware & Open Source
4. Sprachunterstützung: Speech-to-Phrase und Piper wachsen4.1 Fortschritte bei Speech-to-Phrase
4.2 Aktuelle und erweiterte Sprachvielfalt
4.3 Piper – Text-to-Speech mit immer mehr Stimmen
5. Bewertung der Sprachunterstützung und Sprachdienste5.1 Herausforderung bei der Sprachbewertung
5.2 Kategorien der Sprachdienst-Unterstützung
5.3 Praktischer Nutzen für User
6. Verbesserte Unterstützung für Sprachbefehle und Intents6.1 Differenzierung von Namen und Bereichen
6.2 Neues Intent „Media Search and Play“
7. Fortschritte bei Konversationen: Assist wird dialogfähig7.1 Fortlaufende Gespräche ohne Aktivierungswort
7.2 Automatisierungen von Gesprächen
7.3 Vorschau im Video
8. Ausblick: Kritische Bestätigungen, fehlende Parameter & kundenspezifische Dialoge8.1 Kritische Aktionen absichern
8.2 Intelligente Nachfragen bei unvollständigen Befehlen
8.3 Benutzerdefinierte Gespräche
9. Fazit
1. Open Voice aktiv mitgestalten
Bevor wir in die Details eintauchen, soll klargestellt werden: Open Voice Kapitel 10 ist nicht nur eine reine Informationsweitergabe, sondern eine Einladung zur aktiven Mitgestaltung. Das öffentliche Projektboard auf GitHub gibt einen transparenten Einblick in aktuelle Entwicklungsstände, geplante Features und Fehlerbehebungen.
Projektboard: https://github.com/orgs/OHF-Voice/projects/2
Jeder Beitrag und Kommentar ist willkommen, um Open Voice gemeinsam weiterzuentwickeln.
2. ESPHome integriert vollständigen Sprachassistenten-Support
2.1 Von der Vorschau zum vollwertigen Voice-Assistenten
Beim Design der Firmware für die Home Assistant Voice Preview Edition (Voice PE) stand fest, dass bestimmte Features zwingend vor Ort — also lokal auf dem Gerät — funktionieren müssen:
- Wake Words direkt auf dem Gerät erkennen
- Einen komplett Open-Source Media Player nutzen, der hochwertige Audioformate unterstützt
- Dynamisches Aktivieren/Deaktivieren von Wake Words, z.B. „Stop“ nur bei laufendem Timer oder Ansagen
- Stimmelemente über Musik mit gedämpfter Lautstärke („ducked“ mixing) legen
Ursprünglich konnte ESPHome lediglich Punkt 1 und 2 unterstützen, jedoch nicht gleichzeitig und nicht vollständig integriert.
2.2 Upstreaming der externen Komponenten für ESPHome
Zur schnelleren Entwicklung wurden Features zunächst als externe Komponenten realisiert, um Iterationen und Experimentieren zu erleichtern. Nun sind diese Komponenten offiziell in die ESPHome-Software eingegliedert worden – ein Prozess, der als Upstreaming bezeichnet wird.
Mit ESPHome Version 2025.5.0 sind all diese Funktionen vollständig enthalten. Neben der reinen Integration wurden Optimierungen vorgenommen, die Konfiguration erleichtern und die Ausführung deutlich beschleunigen.
2.3 Beispiel CPU-Last-Reduktion
Ein gutes Beispiel für die Effizienzsteigerung ist die CPU-Auslastung bei gleichzeitiger Musik- und Sprachankündigung. Wo die alte Firmware 72% CPU beanspruchte, sind es jetzt nur noch 35% – eine enorme Verbesserung, gerade für Hardware mit begrenzten Ressourcen wie den ATOM Echo.
3. Eigene Voice Preview Edition bauen: Hardware & Open Source
Die Voice Preview Edition dient nicht nur als fertiger Sprachassistent, sondern ist auch ein Baukastensystem für eigene Geräte. Hierfür hat das Open Voice Team die KiCad-Dateien mit Schaltplänen und PCB-Layouts veröffentlicht.
Repository: https://github.com/NabuCasa/home-assistant-voice-pe
Dazu kommen die quelloffenen Firmware-Dateien, die es ermöglichen, das System individuell zu erweitern — etwa durch größere Lautsprecher, Displays oder Sensorsysteme. Ziel ist es, eine lebendige Community um Open Voice Hardware zu etablieren.
4. Sprachunterstützung: Speech-to-Phrase und Piper wachsen
4.1 Fortschritte bei Speech-to-Phrase
Das lokal laufende Speech-to-Text-System Speech-to-Phrase unterscheidet sich von klassischen STT-Lösungen, indem es nur eine vordefinierte Menge an Phrasen erkennt. Dadurch ist es schlank, schnell und besonders auf Low-Power-Geräte optimiert.
Das Satzformat wurde auf eine neuen Struktur umgestellt, die die Entwicklung und das Testen erleichtert. Zudem wurden sprachspezifische Feinheiten berücksichtigt – z. B. das französische Apostroph bei Vokalanfängen von Gerät- und Bereichenamen.
4.2 Aktuelle und erweiterte Sprachvielfalt
Aktuell unterstützt Speech-to-Phrase sechs Sprachen:
- Englisch
- Französisch
- Deutsch
- Niederländisch
- Spanisch
- Italienisch
Neue Partnerschaften mit Sprach-Experten ermöglichen bald die Erweiterung auf 21 Sprachen, darunter Russisch, Tschechisch, Portugiesisch, Türkisch, Swahili, Thai u.v.m.
Die Trainingdaten stammen mit freundlicher Genehmigung aus dem Open-Source-Projekt Coqui STT, dessen Entwicklung eingestellt wurde.
4.3 Piper – Text-to-Speech mit immer mehr Stimmen
Piper ist das Pendant für die Sprachsynthese (TTS) und gehört zu den umfassendsten Open Source TTS-Projekten. Derzeit sind 39 Sprachen und Dialekte verfügbar, mit zusätzlichen Stimmen für beispielsweise:
- Niederländisch: Pim und Ronnie
- Brasilianisches Portugiesisch: Cadu und Jeff
- Persisch/Farsi: Reza_ibrahim und Ganji
- Walisisch, Schwedisch, Malayalam, Nepalesisch, Lettisch, Slowenisch, Slowakisch und weitere
Diese Vielfalt ermöglicht die Erzeugung natürlicher Sprache für Milliarden Menschen in ihrer Muttersprache.
5. Bewertung der Sprachunterstützung und Sprachdienste
5.1 Herausforderung bei der Sprachbewertung
Ein Sprachassistent setzt sich aus mehreren Komponenten zusammen: Spracherkennung (Speech-to-Text), Intent-Erkennung und Rückgabe (Text-to-Speech). Anders als bei einfachen Systemen kann hier jede Komponente individuell installiert und angepasst werden.
Das wirft die grundlegende Frage auf: „Ist meine Sprache überhaupt unterstützt?“
5.2 Kategorien der Sprachdienst-Unterstützung
Um die Komplexität zu meistern, wurde die Sprachunterstützung in drei Kategorien eingeteilt:
- Cloud: Dienste über Home Assistant Cloud, z.B. Microsoft Azure
- Fokussierte lokale Lösungen: Lokale Nutzung von Speech-to-Phrase und Piper (begrenzte Befehle, ressourcenschonend)
- Vollständig lokal: Whisper (Open Source STT) und Piper, offene Sprachsteuerung mit höherem Hardwarebedarf
Jede Sprache erhält in allen Kategorien eine Bewertung von 0 (keine Unterstützung) bis 3 (volle Unterstützung).
5.3 Praktischer Nutzen für User
User können so je nach Hardware und Präferenz entscheiden, welche Art Sprachservice optimal ist – etwa lokale, datenschutzfreundliche Lösungen auf Raspberry Pi oder leistungsfähigere Cloud-Services. Die Bewertungen sind auch im Home Assistant Voice Setup Wizard abrufbar sowie auf der dedizierten Sprachunterstützungsseite.
6. Verbesserte Unterstützung für Sprachbefehle und Intents
6.1 Differenzierung von Namen und Bereichen
Bisher war die Übersetzung von Befehlen auf Intents fokussiert, also Aktionen wie „Licht an“ oder „Rollladen schließen“. Die neue Struktur zeigt jetzt transparenter auf, ob ein Befehl auch Gerätenamen oder Bereichsnamen unterstützt. Das erleichtert die Lokalisierung und das Erkennen von Lücken in der Sprachabdeckung.
6.2 Neues Intent „Media Search and Play“
Dank der Community wurden neue Möglichkeiten geschaffen, um Musik per Sprache zu steuern. Der Intent „Search and Play“ erlaubt es, gezielt Medien in einem Raum auszuwählen und abzuspielen – sowohl in LLM-basierten Unterhaltungen als auch über vordefinierte Sprachbefehle.
Beispiel-Sätze sind auf GitHub zu finden:https://github.com/OHF-Voice/intents/tree/main/sentences/en/HassMediaSearchAndPlay
7. Fortschritte bei Konversationen: Assist wird dialogfähig
7.1 Fortlaufende Gespräche ohne Aktivierungswort
Sprachassistenten sollen natürlicher wirken – das bedeutet, ohne ständiges „Ok Nabu“ zu sprechen. Assist erkennt nun, wenn eine Folgefrage notwendig ist und setzt das Gespräch ohne erneutes Wake Word fort.
7.2 Automatisierungen von Gesprächen
Mit dem neuen start_conversation-Befehl können Entwickler direkt eine Konversation z. B. aus Automatisierungen oder Dashboards heraus starten. So bekommen LLM-basierte Assistenten maximale Flexibilität.
7.3 Vorschau im Video
Ein kurzes Demo-Video zeigt das Zusammenspiel von fortlaufenden Gesprächen und Automationen im Einsatz:
https://youtu.be/dq7--T_pVNA?si=jVeV7oURUiXAkALW
8. Ausblick: Kritische Bestätigungen, fehlende Parameter & kundenspezifische Dialoge
8.1 Kritische Aktionen absichern
Für sensible Aktionen wie das Entriegeln der Haustür plant Assist eine sprachbasierte Bestätigung einzuführen. Nutzer können Entitäten als „geschützt“ markieren, sodass vor der Ausführung verbal abgefragt wird:
Ok Nabu, Tür aufschließen
> Bist du sicher?
Ja
> Tür geöffnet
8.2 Intelligente Nachfragen bei unvollständigen Befehlen
Assist soll fehlende Angaben, wie z. B. die Timerdauer, selbstständig erfragen:
Ok Nabu, Timer stellen
> Für wie lange?
15 Minuten
> Timer gestartet
Der Fokus liegt aktuell auf Timer-Use-Cases, weitere Szenarien sind in Planung oder Diskussion.
8.3 Benutzerdefinierte Gespräche
Ähnlich wie Automatisierungen können Dialoge künftig vollständig lokal und vorab definiert werden. So lassen sich personalisierte Sprachinteraktionen etwa für den Feierabend oder beim Betreten eines Raumes realisieren.
9. Fazit
Open Voice Kapitel 10 markiert einen signifikanten Fortschritt für die Open-Source-Sprachsteuerung in Home Assistant. Von der Hardwareintegration mit ESPHome über erweiterte Sprachunterstützung bis hin zur natürlich wirkenden Konversation bringt das Projekt mehr Flexibilität, Stabilität und Leistung.
Technisch versierte Anwender bekommen mit den frei verfügbaren Designs und Firmware einen soliden Baukasten, um individuelle Voice-Assistenten zu entwickeln. Gleichzeitig wächst die Sprachvielfalt rasant und ermöglicht es immer mehr Menschen, ihre Heimautomatisierung verständlich mit der Stimme zu steuern – lokal, sicher und flexibel.
Es bleibt spannend, wie sich kritische Bestätigungen, Follow-ups und maßgeschneiderte Dialoge weiterentwickeln werden. Die offene Community und die aktive Beteiligung von Nutzern und Entwicklern werden dabei das A und O sein.
Wenn du Teil dieser Bewegung sein möchten: Besuche das Projektboard auf GitHub und trage mit Feedback, Entwicklung oder Übersetzungen bei!
Originalquelle: https://www.home-assistant.io/blog/2025/06/25/voice-chapter-10/ https://smarthome-assistant.info/news-home-assistant-open-voice-kapitel-10/
Kommentare
Kommentar veröffentlichen