„Dialog zwischen Mensch und Maschine“ Conversational User Interfaces, intelligente Assistenten und Voice-Systeme

Bereits seit Anfang der 90er-Jahre beschäftige ich mich mit digitalen Transformationsprozessen und habe das Aufkommen des stationären Internets und die folgende mobile Revolution in all ihren Facetten aktiv mitgestaltet. Nun baut sich eine neue disruptive Welle auf: Conversational User Interfaces, die in ihrer Veränderungswirkung den vorgenannten Entwicklungsstufen in nichts nachstehen wird. Es sich um die nächste Evolutionsstufe in der Art, wie Menschen mit Maschinen interagieren damit auch wie sie mit Informationen und Dienstleistungen umgehen

In den 90er-Jahren mußten Nutzer kryptische Befehlszeilen mithilfe der Tastatur eingeben, dann erleichterte das Navigieren mit der Maus den Umgang mit Computern erheblich und erschloss die damit verbundenen Möglichkeiten deutlich größeren Benutzerkreisen im Berufsleben, wie im Privatleben. Die nächste Stufe waren die Smartphones und Tablets, die mit der Touchbedienung alles so einfach machten, daß wir das Internet sogar in den normalen Alltag mitnehmen konnten. Diese Entwicklung setzt sich nun dadurch fort, indem wir in natürlicher Sprache – gesprochen, oder getippt – und im Fluss unserer Gedanken mit Maschinen und den dadurch erreichbaren Informationen und Diensten umgehen können. Wie das stationäre Internet und später das mobile Internet bestehende Unternehmen und Geschäftsmodelle herausforderte und ganz neue Wettbewerber und Marktkonstellationen mit sich brachte, so wird auch die Zeit der Conversational User Interfaces letztlich in Wirtschaft und Gesellschaft keinen Stein auf dem anderen lassen.

Evolution von der Befehlszeile zur Spracheingabe

(c) Peter Kabel

Welche Einsatzfelder bieten sich an?


Tatsächlich sind die Einsatzfelder dafür nahezu unbegrenzt und wird unser Alltagsleben verändern. Durch Voice können wir Tätigkeiten beispielsweise im Auto ausführen, die mit Grafischen Nutzeroberflächen nicht möglich sind, wir können mit unseren Kopfhörern sprechen und komplexe Audioinhalte abrufen, oder einem Sprachassistenten einen Befehl erteilen.  Daher sind alle Einsatzfelder prädestiniert, die den Kundenkontakt organisieren. Intelligente Assistants, Voice-Systeme und Bots wertvolle Antworten geben und Handlungen auslösen. Wir buchen eine Fahrkarte, verlängern einen Vertrag oder starten eine Überweisung. So entsteht ein neues Ökosystem, das viele Prozesse in Unternehmen und im Alltag revolutionieren wird. Alle Marktteilnehmer müssen sich neu positionieren und verorten. Natürlichsprachige Interaktion macht das Navigieren auf jeder Unternehmenswebsite leichter, wenn ich nicht lange nach einer Detailinformation suchen muß, sondern diese einfach Nachfragen kann. So wie wir uns heute auch an den Komfort gewöhnt haben einfach unsere Frage in den Suchschlitz der Suchmaschine einzugeben, werden wir künftig nahzu alle Anbieter von Leistungen und Informationen anfragen wollen – gesprochen, oder getippt, aber so, wie unser Denkprozess abläuft und nicht so, wie die die Webdesigner das Eingabeformular gestaltet haben. 

Der Conversational-User-interfaces-Kosmos

(c) Peter Kabel

Aber auch in b2b-Umfeldern machen natürlichsprachige Interfaces Sinn: Denken sie an Ärzte, die heute häufig im Patientengespräch in ihre Computerbildschirme vertieft sind um Daten einzugeben, oder einzusehen. Mit Conversational User Interfaces kann dies gewissermaßen „on-the-fly“ im Patientengespräch geschehen und den Patienten dabei u.U. sogar aktiv einbinden. Die Steuerung von Maschinen in der Industrie, oder das Auffinden von Informationen in komplexen ERP-Systemen sind ebenfalls b2b-Anwendungsfelder. Am Ende dieser Entwicklung, werden die heute gebräuchlichen grafischen Benutzerinterfaces in vielen Bereichen nur noch eine Supportfunktion und Sonderstellung haben.

Worin liegen die Herausforderungen?

Nutzer und Verbraucher gewöhnen sich verblüffend schnell an neue Komfort-Niveaus. Wer heute kein Mobile-Angebot hat, gehört nicht mehr zum relevant Set bei der Verbraucherentscheidung. Dieser Vorgang wird sich wiederholen. Das neue Normal wird sein: „Sage mir einfach, was Du möchtest und ich – als Unternehmen und Institution –  verstehe diesen Wunsch und liefere eine Lösung.“ Wer künftig dahinter zurückfällt wird es schwer haben. Für Marken- und Produktkommunikation wird dies erhebliche Veränderungen mit sich bringen. Es sind Szenarien denkbar, in denen Werbung überhaupt nicht mehr die Zielperson erreicht, weil ein Sprachassistent dazwischen agiert, der teilautonom Angebote filtert und für den Nutzer aufbereitet. Ob es sich dabei um tatsächlich persönliche Assistenten handelt, oder um Ausprägungen der heute bekannten Systeme der großen Tech-Unternehmen, ist noch nicht entschieden. Klar ist aber, daß nur diejenigen Akteure, die das neue Paradigma verstehen erfolgreich bleiben können. Neue Akteure werden mit ihren maßgeschneiderten Angeboten die Lücken sehr schnell schließen, die träge Marktteilnehmer lassen.

Für alteingesessene Unternehmen handelt es sich um gewaltige Herausforderungen: Technologisch – die gesamte Leistungsstruktur muß Modular aufgebaut und viele Schnittstellen (APIs) aktiv gemanaged werden. Ein Vorgang, wie SEO auf Highspeed. Auch die Beschreibung der eigenen Angebote und letztlich das ganze Denken über die eigene Leistungsstruktur muß sich ändern. Unternehmen müssen beginnen in Sprache – semantisch – zu denken.  Und letztlich geht es um eine radikale Service-Haltung, die vielen Unternehmen heute noch immer fehlt.

Conversational User Interfaces Technologielandschaft

(c) Peter Kabel

Wie bereits gesagt, handelt es sich beim Aufsetzen eines eigenen Angebots einerseits um ein komplexes technisches Projekt, bei dem Sprache intelligent verarbeitet werden muss und dann Geschäftsprozesse integriert und angestoßen werden. Es gibt heute bereits vielfältige denkbare Software-Komponenten und Konstellationen innerhalb und außerhalb der geschlossenen Systeme, wie sie von Google, Amazon, Samsung und anderen, die diese oft in Kombination mit Speaker-Hardware, in den Markt bringen. Das geeignete Tech-Stack muß jeder für sich definieren und auch die Frage wo, welche Daten erhoben und verarbeitet werden. Je mehr Daten ich zur Verfügung habe umso besser kann meine Sprachfähigkeit werden und umso besser kann ich Context-Sensitiv mit Nutzern „sprechen“ und interagieren. Es ist aber, wie häufig in der digitalen Transformation, nicht nur ein technisches Problem, sondern auch eine Frage der Kultur und Identität. Das ist in diesem Feld sogar ganz besonders der Fall, da ein Unternehmen buchstäblich zu einer Persona wird, mit der wir sprechen.

Und wo stehen wir heute – auch im internationalen Vergleich?

Jede Sprache ist ein sehr strukturierter Gegenstand, dessen Syntax, Vokabeln und Grammatik etc einem klaren Regelwerk folgt. Im Zusammenspiel mit der rasant wachsenden Menge an digitalen Spracherzeugnissen und damit einer Menge und Qualität von Trainingsdaten hat sich das sogenannte Natural Language Processing in den letzten Jahren bereits enorm weiterentwickelt. Das betrifft alle Teilschritte: Die Transkription der Audiodatei mit gesprochener Sprache (Speecht-to-Text). Die Analyse der darin enthaltenen Informationen und geäußerter Bedürfnisse (u.a. Intent-Recognition), aber auch die umgekehrte Reihenfolge vom Geschäftsvorfall bis zum gesprochenen Wort.

Dennoch stehen noch gaaaanz am Anfang. So wie Internet in 1995. Alles ist langsam und unhandlich und wird den ins Kraut schießenden Ansprüchen in keiner Weise gerecht. 1995 haben die Anbieter PDFs ihrer Drucksachen ins Netz gestellt. Wir befinden uns in der Phase der ersten Smartphones, als alle Welt staunte, daß darin eine Wasserwagen-App verfügbar war. Dies wird sich im Fall von Conversational User Interfaces aber sehr schnell verändern. Die Fähigkeiten Sprache zu verarbeiten nimmt täglich zu und die Hürden sind heute eher die Integration in die Geschäftsprozesse, als die eigentlichen sprachlichen Fähigkeiten.

Nutzung von Voice Assistants nach Endgeräten*

*Daten USA 2019

(c) Peter Kabel

International sind große Sprachen (z.B. Englisch) natürlich im Vorteil und eingeschränkte Wissensdomänen (Themen): Englisch Banking ist schon sehr weit entwickelt. Finische Nischenthemen dagegen noch überhaupt nicht. In Asien sind Conversational User Interfaces wesentlich weiter entwickelt, als im Westen. Das liegt an den für kleine Mobile-Bildschirme ungeeigneten Alphabete dieser Sprachen. Das liegt aber auch daran, daß in vielen asiatischen Geografien die Nutzer ihre ersten Erfahrungen mit dem Internet nicht mit Desktop-PC gemacht haben, sondern ihre Sozialisation mit Mobile Phones gestartet hat und dabei das Sprechen und Messaging der natürlichere Zugang sind.


Ihr wollt noch mehr erfahren? Sein Buch Dialog zwischen Mensch und Maschine finder ihr hier.

Prof. Peter Kabel, Hamburg

Portrait cut Peter Kabel-Copyright-Anton-Ahrens-7639 Kopie

Serienunternehmer und Professor – digtital von Anfang an. Gründer mehrerer Unternehmen u.a. aus den Bereichen Medien, Technologie und Design: Kabel Neue Medien, Trendbüro, Büro Hamburg.  2004-2007 Mitglied des Vorstands der Jung von Matt AG. Gründungsgesellschafter der Lakshmi GmbH, einer vc-Firma mit Sitz in Hamburg, Berater und Investor in mehr als 30 digitale Unternehmen in Europa, USA und Indien. Gründer der AECAL GmbH, die einen Brückenschlag zwischen Indien und Europa mit Fokus auf das digitale Ökosystem vollzieht. Vernetzt und sachkundig in den Bereichen digitale Markenbildung, Online-Inhalte und Marketing, Produkt- und Dienstleistungsdesign, Mobile, digitale Transformation, Startups und Wachstum. Ordentlicher Professor an der HAW Hamburg, Lehre Interaction Design, Service Design. Umsetzung zahlreicher Innovationsinitiativen (z.B. Design Thinking, Design Hackathon, Peer Learing, Physical Computing für Designer, Rapid Prototyping) Mitglied des Dekanats (Dekan) der Fakultät Design, Medien, Information mit mehr als 4.000 Studierenden. Autor von Artikeln und Büchern, Redner auf Konferenzen und Empfänger vieler Erwähnungen für Innovation und Kreativität.