by Anaïs

Sprachassistenten sind weit verbreiten und werden als die Technologie von morgen betrachtet. Doch warum stagniert die Anzahl der Nutzer? Warum tendieren auch Besitzer eines Assistenten dazu andere Medien wie Smartphones oder Tablets zu bevorzugen? Und kann man da etwas dran ändern?

Für Menschen ist die Kommunikation über Sprache am Einfachsten und intuitivsten (1). Also warum nutzen nur 31% der Deutschen Sprachassistenten (2)? Was beeinflusst die Akzeptanz? Die Akzeptanz von Sprachassistenten wird von mehreren Parametern beeinflusst:

  1. Zum Einen ist es die Tatsache, dass die Vorstellung, dass einem durchgehend zugehört wird für viele beängstigend. Insbesondere, da die Sprachassistenten, die es gibt, zum Teil schon gehackt wurden (3).Daher soll es möglich sein, James - der Sprachassistent der im Rahmen des Projekts entwickelt wird - offline nutzen zu können. Natürlich mit der Einschränkung, dass dann manche Online-Funktionen nicht verfügbar sind. Außerdem soll der Code offen (open-source) sein, damit man einschätzen und sehen kann, was passiert. Auch die Kommunikation / ausgehenden Verbindungen sollen für Interessierte transparent und einfach einzusehen sein.
  2. Ein weiterer Punkt ist, dass die Verwendung sich eingeschränkt anfühlt (4). Viele Funktionen sind nicht verfügbar und die Kommunikation verläuft hölzern inflexibel. Daher soll es einfach sein, neue Anwendungen an James anzuschließen. Außerdem soll James sich dem Sprachgebrauch des Nutzers anpassen. Wenn Menschen einander sympathisch sind, passen sie ihren Sprachgebrauch unterbewusst an (5). Dies soll James auch tun, damit die Unterhaltung nicht unangenehm wirkt, weil man seine Sprache anpasst. Außerdem soll ein Assistent das Leben leichter machen und nicht schwieriger, daher ist „das Lernen der Sprache des Assistenten“ eine Hürde (6). An dieser Stelle sollten auch kulturelle und zwischenmenschliche Gewohnheiten übernommen werden. James soll daher auch auf Unterbrechungen reagieren können oder Füllwörter verwenden. Jedoch ist an dieser Stelle darauf zu achten, dass der Assistent nicht „gruselig“ wird, da er dem Menschen zu ähnlich ist,aberder Mensch unterbewusst kleine Unterschiede hört, die dazu führen, dass es eine Diskrepanz zwischenErwartung / Normalität und Realität gibt (7).
  3. Ein weiterer Punkt, weshalb die Verwendung sich eingeschränkt fühlt, ist, dass mehrstufige Integrationsprozesse oft schwierig sind. Es gibt mehrere Beispiele, bei denen mehrstufige Prozesse auftreten: die Suche, das Anrufen einer Person, deren Name mehrfach im Telefonbuch ist, Bestellungen, etc. Bisher werden überwiegend einmalig Befehle gegeben. Dies schränkt die Anwendung jedoch auf Funktionen ein, die mit einem Befehl gestartet werden können. Außerdem kann es auch vorkommen, dass man, bevor man eine Entscheidung trifft (wie z.b. das Buchen einer Zugfahrt nach der Arbeit), eine Zwischenfrage gestellt wird („Wann habe ich nochmal meinen letzten Termin am Donnerstag?“).
  4. Problematisch ist auch, dass die Motivation Sprachassistenten zu nutzen mit der Verwendung oder dem Ausprobieren sinkt. Es gibt mehrere kritische Stellen im Dialog mit einem Sprachassistenten, die die Motivation und damit die Akzeptanz den Assistenten in den Alltag einzugliedern senken. Dafür muss man untersuchen, welche Phasen beim Handeln die Motivation beeinflussen (8): Wenn ein Mensch das Bedürfnis hat, etwas zu machen (er möchte wissen, wie das Wetter ist), so wägt er in der prädezisionalen Phase (nach dem Modell von Rubikon) ab, ob es sich für ihn lohnt und bildet eine Intention. Kritisch ist fürJames, wenn der Nutzer die Ausführung des Plans mit James mit negativen Konsequenzen (umständlich, schwierig, etc.) behaftet sieht. Hat der Mensch einmal eine Zielintention gefasst, wechselt er in die präaktionale und im anschließend in die aktionale Phase (Volition). Hier initiiert und realisiert er seine Intention. In der Planungsphase erhöht sich seine Frustratrionsschwelle. Die oberste Maxime ist das Erreichen der Zielintention - scheint das gewählt Medium nicht effizient oder einfach genug an das gewünschte Ziel zu kommen, so wechselt er auch das Medium. Daher dürfen während der Bedienung von James nicht andere Medien wie z.B. das Handy oder der Laptop effizienter erscheinen. Das letzte Hindernis ist die Bewertung der Handlung in der postaktionalen Phase.  Diese nimmt Auswirkung auf die Motivation. Der Nutzer baut mit der Zeit eine Beziehung zu elektronischen Geräten in seiner Umgebung auf (9). Assistenten sind für eine lange Nutzungsdauer ausgelegt. Daher ist es wichtig, Fehler als Chance zur Weiterentwicklung zu sehen und dies auch dem Nutzer zu kommunizieren. Studien ergaben, dass auch bei Fehlschlag Menschen positiver sind, wenn sie die Möglichkeit sehen, dass es in Zukunft besser klappt (10).
  5. Da der Sprachassistent in der Umgebung des Nutzers wie z.B. das Handy dauerhaft vorhanden ist, entwickelt der Nutzer eine langanhaltende Beziehung zum Assistent. Daher ist es wichtig, dass dieser auch eine Persönlichkeit hat oder etwas verkörpert, dass eine positive / „glückliche“ Beziehung ermöglicht. Wenn Menschen interagieren, dann erwarten sie immer eine Rückmeldung - setzt man sich, erwartet man, dass das Material je nach dem, was für ein Material es ist, nachgibt, . Bei Beziehungen, die über die natürliche Sprache stattfinden, erwarten wir, dass der Andere eine Persönlichkeit hat, die Fragen über sich beantworten kann, Sachen von sich aus erzählt, etc. Dies führt auch dazu, dass das Vertrauen, welches sehr wichtig für den Erfolg und die Akzeptanz ist (11), nicht nur zu dem Gerät sondern auch zum Kommunikationspartner James entsteht.

Der Fokus des Projekts liegt auf der Überarbeitung und Anpassung des Dialogmanagements. Ein Sprachassistent besteht aus verschiedenen Komponenten (12): Es beginnt mit der Spracherkennung (automatic speech recognition), die dafür sorgt, dass der Assistent aktiviert wird, wenn man ihn anspricht. Als nächstes folgt die Sprache zu Text Verarbeitung (speech to text), die das Gesprochene in Text umwandelt, der im Anschluss der Sprachverarbeitung (natural language processing) bzw. dem Sprachverständnis (natural language understanding) übergeben wird. In Sprachassistenten wird NLU präferiert, da der Text „verstanden“ wird und die Intention aus dem Text gefiltert wird. Nun greift das Dialogmanagement und eine künstliche Intelligenz, die die Intention ausführt. Das Dialogmanagement klärt Rückfragen ab und gibt Feedback an den Nutzer.

Jeder dieser Komponenten des Sprachassistent ist ein Forschungsfeld an sich und wird durch die Nutzung künstlicher Intelligenz verbessert. Die meisten dieser Komponenten sind schon sehr fortgeschritten in der Entwicklung - daher scheitert der Dialog mit Chatbots oder Sprachassistenten oft am Dialogmanagement (13). Im Projekt unterliegen die einzelnen Komponenten bis auf den Dialogmanager deswegen nicht der eigenen Entwicklung. Es wird vorausgesetzt, dass sie zuverlässig und auf dem Stand der aktuellen Technik und Forschung arbeiten. Die Komponenten sollen minimal von einander abhängen, damit sie bei Verbesserungen aktualisiert oder auch ausgetauscht werden können, sollte ein anderer Anbieter ein besseres Produkt liefern.

Im Rahmen der Umsetzung sollen mehrere Umfragen stattfinden. Eine erste Umfrage, die untersucht welche Probleme es gibt und inwiefern die theoretischen Ansätze zur Verbesserung des Dialogs, die ich im ersten Schritt entwickeln werde, funktionieren und angenommen werden. Auf Grundlage der Erkenntnisse aus der ersten Umfrage, werde ich die Ansätze in James einbauen soweit es technisch möglich ist. Um zu Verifizieren und Evaluieren wie erfolgreich die Umsetzung war, wird es eine zweite Umfrage geben, bei der man voraussichtlich auch mit James direkt interagieren wird.

Unter den Teilnehmern der Umfragen verlose ich am Ende der Thesis einen James. Die Umfrage ist selbstverständlich anonym und die Teilnahme an der Verlosung freiwillig. Über eure Hilfe und Anregungen würde ich mich sehr freuen😊 Gerne könnt ihr mich unter anais@bingut.de kontaktieren.

    Bildverzeichnis:
  • - 2021
  • Quellenverzeichnis:
  • (1) Merdivan, Erinc ; Singh, Deepika ; Hanke, Sten ; Holziger, Andreas: Dialogue Systems for Intelligent Human Computer Interactions. In: Electronic Notes in Theoretical Computer Science - May 2019 (2019)
  • (2) Statista, letzter Zugriff: 22.01.2021, 00:41 Uhr
  • (3) BBC, letzter Zugriff: 04.03.2021, 10:04 Uhr
  • (4), letzter Zugriff: 23.01.2021, 11:26 Uhr
  • (5) Spektrum, letzter Zugriff: 04.03.2021, 10:42 Uhr
  • (6) Dr. Udluft, Heiko: Schach, Suchmaschine, Sprachassistent - unser Verhältnis zur Künstlichen Intelligenz. In: Digitale Welt (4) (2018)
  • (7) Rieger, Stefan: Uncanny Valley. In: Die Enden des Körpers, Versuch einer negativen Prothetik (2019 - Springer Fachmedien), S. 205-223
  • (8) Achtziger, A. ; Gollwitzer, P. M.: Motivation und Volition im Handlungsverlauf. In: Motivation und Handeln (Hrsg. Heckhausen, Jutta) (2006 - Springer Verlag, 3. überarb. u. aktualisierte Aufl.), S. 277-302
  • (9) Rebaudengo, Simone: Design for Living with Smart Products, The Intelligent Home (2017 - O'Reilly Media, Inc.)
  • (10) Kahneman, Daniel: Thinking, Fast and Slow (2011 - Penguin Random House UK)
  • (11) Normann, Don; Emotional Design: Why We Love (Or Hate) Everyday Things. (2004 - Basic Books)
  • (12) Schnelle-Walka, Dirk ; Radomski, Stefan ; Milde, Benjamin ; Biemann, Chris ; Mühlhäuser, Max: NLU vs. Dialog Management: To Whom am I Speaking. From: Workshop Interacting with Smart Objects, March 10th, 2016, Sonoma, CA, USA (2016)
  • (13) Germanautolabs, letzter Zugriff: 18.02.2021, 13:17 Uhr