Google hat offiziell den Sprachmodus Gemini Live angekündigt, der bald in der mobilen Gemini-App verfügbar sein wird. Dies markiert eine erneute Eskalation des Wettbewerbs zwischen Google und OpenAI im Bereich der KI-Sprachassistenten.
Gemini Live ist eine völlig neue mobile Gesprächserfahrung, die natürliche Sprachkommunikation unterstützt und mit menschenähnlicher Stimme und Rhythmus antwortet. Es bietet 10 Stimmoptionen, unterstützt Freisprechfunktionen und ermöglicht jederzeit Unterbrechungen und Themenwechsel. Die englische Version ist bereits auf Android-Geräten verfügbar, iOS-Version und weitere Sprachunterstützungen werden in den kommenden Wochen eingeführt.
Im Vergleich zu OpenAI hat Google Vorteile in Bezug auf Einführungsgeschwindigkeit und potenzielle Nutzerbasis. Gemini Live wird für über 3 Milliarden Android-Nutzer und 2,2 Milliarden iOS-Nutzer weltweit verfügbar sein. Allerdings gab es bei der Live-Demonstration zwei kleine Zwischenfälle, die zeigen, dass die Funktionalität noch verbesserungswürdig ist.
Google erklärt, dass Gemini KI-Assistenten neu definiert und sich in verschiedene Google-Apps und -Tools integrieren lässt, um vielfältige Aufgaben zu erledigen. Zukünftig werden weitere Erweiterungsfunktionen eingeführt, einschließlich Keep und Tasks.
Auf Android-Systemen können Nutzer Gemini durch langes Drücken der Ein/Aus-Taste oder per Sprachbefehl aktivieren. Es kann Bildschirminhalte verstehen und mit laufenden Apps interagieren. Google führt auch das neue Modell Gemini 1.5 Flash ein, um Reaktionsgeschwindigkeit und -qualität zu verbessern.
Zusätzlich hat Google die KI-Bildgenerierungs-App Pixel Studio auf Basis von Imagen 3 eingeführt.
Insgesamt treibt Google die Entwicklung von KI-Assistenten mit Nachdruck voran und versucht, sich im Wettbewerb mit OpenAI und Apple einen Vorsprung zu verschaffen.