Für eine App, die wir schon sehr lange betreuen, hatten wir die Ehre uns an eine ganz neue Steuerungslogik heranzuwagen. Ein so genanntes „Non-UI-Interface“. Konkret geht es um den neuen Alexa Skills für clever-tanken.

Die App versteht die Sprachkommandos und kann auf Zuruf Auskünfte über die Preisstruktur für die gewünschte Sorte in quasi allen deutschen Städten geben. Technisch funktioniert das über die in Alexa integrierte Spracherkennung, die wir dann in einer Semantik Engine auswerten können. Dafür mussten wir ein grobes Regelwerk, erlaubte Sätze und Phrasen, sowie verschiedene Satzvariationen vorgeben. Eine große Rolle spielte auch die Definition von Begriffen und Wortähnlichkeiten bei ungenauer Erkennung oder Aussprache des Nutzers.

 

Und? Sind wir zufrieden?

Wir haben uns total über die Realisierung eines derartig reichweitenstarken Services gefreut. Laut IVW hat clever-tanken ca. 60 Millionen Zugriffe im Monat, das ist mal ein Wort. Um ehrlich zu sein, sind wir aber mit dem Ergebnis nur so mittelmäßig zufrieden. Das liegt weniger am Service selbst, sondern vielmehr an der Spracherkennung von Alexa bei sehr spezifischen Begriffen, die in einem ganz bestimmten Kontext zu finden sind. Eben tanken zum Beispiel: Wo die Erkennung von Bioethanol erstaunlich fehlerfrei funktioniert gibt es gerade bei den beliebten Spritsorten Super E5 oder Super E10 immer wieder Probleme bei der Erkennung.

Eine Besonderheit von sprachbasierten Systemen ist, dass sie – gerade bei Drittanbieter Apps, oder Skills – eine dedizierte Sprach-Logik verwenden. So wird man z.B. auf die Frage, was Diesel in München kostet, keine Antwort bekommen. Die Frage wird hingegen korrekt beantwortet, wenn man vorher sagt: „Alexa, starte die clever-tanken App“. Alternativ kann man die Frage auch so formulieren: „Alexa, frag’ clever-tanken, was Diesel in München kostet.“

Das Problem sehen wir darin, dass so Menschen nicht wirklich kaskadiert denken oder gar sprechen. Das führt dazu, dass man seine Sprache bei der Steuerung eines Systems nicht natürlich einsetzt und die „richtigen Phrasen“ lernen muss. Das steht irgendwie im Widerspruch dazu, dass die Technik doch eigentlich uns unterstützen sollte.

Wo wird die Reise hin gehen?

Wir haben natürlich auch viele andere Lösungen ausprobiert. Im Vergleich mit Siri, Tizen, Google Home & Co wirkt die Spracherkennung erst mal vergleichbar. Semantisch hat Google Home aber wohl am ehesten die Nase vorn.
Trotzdem spricht man – trotz der großen Ankündigungen nach Kontextsensitivität – mit einer Maschine, die eben noch in den Kinderschuhen steckt und das merkt man. Daher sind bisher auch nur sehr simple Anweisungen möglich wie “Mach das Licht an” oder “Mach den Fernseher aus”. Eine kombinierte Anweisung wie “Mach das Licht an und den Fernseher aus” wird schon nicht mehr verstanden. Der Workaround ist eine unnatürliche, sequentielle Form des Sprechens: “Ok Google, mach das Licht an. (pause) Ok Google, mach den Fernseher aus.”

Bis komplexe Apps wirklich gut per Sprache steuerbar sind werden wohl noch einige Jahre vergehen

Wie auch immer: Das ist der erste Schritt einer insgesamt doch recht neuen Technologie. Wir freuen uns schon auf die vielen nächsten Schritte um die Lösungen sukzessive besser und besser zu machen.

 

 

Autor: Minh Bui

Hol dir den Alexa Skill und probier es selbst aus!

zum Amazon Shop