Natürlichsprachlich: Was ist schon normal?

Schon wieder so eine lästige Roboterstimme am Telefon!

Verärgerter Anrufer: Ein Mangel an Natürlichsprachlichkeit führt zu unzufriedenen KundenHaben Sie sich auch schon einmal bei diesem Gedanken erwischt? Bei so mancher Hotline wünschen wir uns tatsächlich lieber, einen Menschen an der Leitung zu haben, damit wir uns natürlichsprachlich – eben „ganz normal“ – unterhalten können. Und wenn Sie sich jetzt fragen ‚Was ist schon normal?‘, dann haben wir die Antwort! Zumindest, wenn es um natürlichsprachliche Voicebots geht. Denn es gibt einige Kriterien, die den Ausschlag dafür geben, ob wir eine Unterhaltung als „normal“ empfinden. Dieses kleine Wörtchen – an dem sich viele häufig zurecht stoßen – bedeutet in diesem Zusammenhang so viel wie „natürlichwirkend“ beziehungsweise, mit dem Fachbegriff ausgedrückt, „natürlichsprachlich“.

Moderne Voicebots stehen für intuitive Mensch-Maschine-Gespräche, die offene Fragen und natürlichsprachliche Dialoge möglich machen – ähnlich wie in der Unterhaltung mit einem Menschen. Eben ganz anders als herkömmliche IVR-Portale, die ausschließlich schlüsselwort- oder DTMF-basiert reagieren. Hier ein kurzes Beispiel für ein veraltet wirkendes System: „Drücken Sie die ‚1‘, wenn Sie eine Frage zu Ihrer Rechnung haben“.

Voicebots dagegen streben danach, die Anrufer in den Mittelpunkt zu stellen: Sie sollen den Dialog steuern und beeinflussen können. Und wenn die Anrufer die Kommunikation mit ihrem maschinellen Gesprächspartner als angenehm und intuitiv empfinden, liegt das in den meisten Fällen daran, dass der Voicebot einige ganz bestimmte Kriterien erfüllt. Denn ein „normales“ Gespräch lässt sich durchaus auf wenige spezifische Merkmale für Natürlichsprachlichkeit herunterbrechen:

Ein individueller Dialog:
Auf den Gesprächspartner gemünzt

Ein gelungener, natürlichsprachlicher Dialog ist genau auf den Anrufer gemünzt: Der Voicebot berücksichtigt dabei die ganz individuelle Vorgeschichte, und der Dialogverlauf erfolgt nicht nach Schema F. Stellen Sie sich vor, Sie gehen in Ihr Lieblingsrestaurant um die Ecke. Dort wird Sie der Wirt ganz individuell – in etwa wie folgt – begrüßen: „Schön, Sie wieder zu sehen. Wie immer?“

Für so eine maßgeschneiderte Ansprache identifiziert der Voicebot den Anrufer erst einmal anhand der Telefon- oder Kundennummer beziehungsweise anhand des Namens. Anschließend fordert er die entsprechenden Daten aus dem CRM-System an, wo Kundendaten, Profile und Kundenhistorie gespeichert sind. Von dort erhält der Voicebot also die notwendigen Informationen, um zu wissen, mit wem er spricht und was bisher zwischen Kunde und Unternehmen abgelaufen ist. Daraus kann er eine situationsbezogene Reaktion auf den Anrufer ableiten, die dann annähernd so persönlich wirkt, wie die individuellen Worte des Wirts.

Gemischte Initiative:
Ein natürlichsprachliches Gespräch ist ein Geben und Nehmen

Anruferin: Ein natürlichsprachliches Gespräch am TelefonHerkömmliche Systeme wickeln das Gespräch nach einem festgelegten Schema ab, während der Anrufer sich geduldig durch den Fragenkatalog hangelt. Dabei ergreift das System die Initiative und der Anrufer richtet sich durchgehend nach ihm. Ein moderner Voicebot dagegen ermöglicht dem Anrufer, in das Gespräch einzugreifen – er arbeitet also nach dem Prinzip der „gemischten Initiative“, bei der sowohl das System als auch der Anrufer aktiv werden kann.

„Wie kann ich Ihnen helfen?“ ist daher eine typische Begrüßungsfrage für natürlichsprachliche Voicebots mit gemischter Initiative. Sie gibt den Anrufern die Möglichkeit, mit dem System ohne vorgegebene Menüstruktur zu sprechen.

Das Prinzip der „gemischten Initiative“ ermöglicht dem Anrufer zum Beispiel, Dialogschritte zu überspringen oder auf „Ja/Nein-Fragen“ komplett anders als erwartet zu reagieren:

Voicebot: „Möchten Sie noch weitere Artikel bestellen?“
Anrufer: „Ich kann doch mit PayPal bezahlen, oder?“

Die Überbeantwortung:
Mehrere Informationen in einem Dialogschritt

Die Begrüßungsfrage „Wie kann ich Ihnen helfen?“ führt dazu, dass Anrufer mehrere Informationen in einem Satz nennen, die ein herkömmliches System in mehreren Dialogschritten abrufen würde:

Was fällt Ihnen an diesem Beispiel unmittelbar auf? Natürlichsprachliche Voicebots, die eine Überbeantwortung erlauben, verkürzen das Gespräch erheblich. Im Dialog mit einem menschlichen Mitarbeiter sind Überbeantwortungen die Regel – denn diese Art der Kommunikation sind wir gewöhnt. Längere Abfragen wirken dagegen unnatürlich und stellen die Geduld der Anrufer unnötig auf die Probe.

Barge-In:
Ins Wort fallen erlaubt

Jemanden nicht ausreden zu lassen ist unhöflich – das haben wir (fast!) alle gelernt. Trotzdem gibt es Situationen, in denen es gesellschaftlich und zwischenmenschlich akzeptiert ist, dem Gesprächspartner das Wort abzuschneiden. Rufen wir bei einer Hotline an, kommt es immer mal wieder vor, dass der Mitarbeiter unser Anliegen falsch versteht oder nicht richtig interpretiert. Und bevor beide Parteien durch das Missverständnis kostbare Zeit verlieren, ist es durchaus angebracht, den Gesprächspartner zu unterbrechen, um unser Anliegen richtigzustellen.

Für uns ist es also „normal“, einem Mitarbeiter ins Wort zu fallen, um ein Gespräch wieder in die richtige Bahn zu lenken. Daher sollten wir einen Voicebot erst recht unterbrechen können. Auch bei einer längeren Aufzählung oder wenn wir uns bei mehrmaligem Anrufen die Begrüßungsfloskel ersparen wollen, ist ein „Barge-In“ – das Hereinplatzen in den Dialogablauf – sinnvoll.

Und manchmal geben wir versehentlich falsche Informationen, die wir dann korrigieren möchten – wo gehobelt wird, fallen Späne, und wer arbeitet, macht Fehler. Natürlichsprachliche Voicebots, die sich am Gespräch mit einem Menschen orientieren, sollten also auch mit Fehlern und Missverständnissen umgehen können. Auf Einwürfe wie „Ich habe einen Fehler gemacht“ oder „Jetzt hast du mich aber falsch verstanden“ kann ein natürlichsprachlicher Voicebot daher entsprechend reagieren.

Implizite Bestätigung:
Missverständnisse geschickt und natürlichsprachlich aus dem Weg räumen

Das System muss sichergehen, dass es den Anrufer richtig verstanden hat. Doch anstatt nach jeder Information entsprechend nachzufragen, bauen natürlichsprachliche Voicebots die Bestätigung geschickt in die nächste Frage ein:

Anrufer: „Ich möchte nach Rom fliegen.“
System: „Wann möchten Sie nach Rom fliegen?“

Voraussetzung ist natürlich, dass der Anrufer korrigieren kann, falls das System falsch liegt. Wiederholt das System dagegen unablässig die verstandenen Informationen um Fehler auszuschließen, wirkt das auf den Anrufer wenig natürlich:

Anrufer: „Ich möchte nach Rom fliegen.“
System: „Sie möchten nach Rom fliegen?“

Rückbezüge:
Verstehen aus dem Zusammenhang

Ein Kind, das in eine Melone beißt: Rückbezüge wirken natürlichsprachlichAnhand von Pronomen (er, sie, es) beziehen wir uns häufig auf etwas Vorangegangenes. Auf was genau, wird dabei meist nur aus dem Zusammenhang klar:

„Mein Kind isst kein Fleisch. Wie kann ich es ersetzen?“
„Mit einem Hund. Hunde essen gerne Fleisch.“

Für moderne, natürlichsprachliche Voicebots stellen Rückbezüge dank Natural Language Processing und NLU meist kein Problem dar, so dass sie auch folgende Aussage verstehen:

System: „Der Film „Phantastische Tierwesen: Dumbledores Geheimnisse“ wird in Nürnberg im Cinecitta Multiplexkino um 20.30 Uhr gezeigt.“
Anrufer: „Läuft der auch früher?“

Natürlichkeit für Natürlichsprachlichkeit:
Auf die Stimme und die Ausdrucksweise kommt es an

Roboterhafte Stimmen wirken unprofessionell. Sie führen dazu, dass wir uns unbewusst oder bewusst auf unser künstliches Gegenüber einstellen und überdeutlich in Schlagworten sprechen, anstatt bei unserer normalen Ausdrucksweise zu bleiben. Wesentlich natürlichsprachlicher dagegen wirkt es, wenn Voicebots die Stimme von professionellen Sprechern verwenden. Dafür werden „Sprachschnipsel“ aufgenommen, die die Software dann – je nach Antwort des Voicebots – entsprechend zusammenfügt.

Außerdem sollten Sie die Bedeutung einer weitgehend umgangssprachlichen Ausdrucksweise nicht unterschätzen. Sehen wir uns die folgenden zwei Beispielpaare an:

1. Beispiel:

„Die Transaktion ist nun abgeschlossen. Soll Ihnen eine Bestätigung über Ihre hinterlegte E-Mail-Adresse zugesandt werden?“

versus

„Besten Dank, Ihre gewünschte Änderung habe ich erfasst. Möchten Sie noch eine Bestätigung per Mail?“

2. Beispiel:

„Sagen Sie ‚Bestellung‘, wenn Sie eine neue Bestellung durchführen möchten oder ‚Rechnungskopie‘, wenn Sie eine Rechnungskopie möchten.“

versus

„Möchten Sie etwas bestellen oder brauchen Sie eine Rechnungskopie?“

Beide Formulierungen drücken jeweils das Gleiche aus, wirken allerdings vollkommen unterschiedlich. Die erste Ausdrucksweise verleitet den Anrufer dazu, eine eher passive Rolle einzunehmen und anstatt in ganzen Sätzen nur in kurzen Wortketten zu reagieren. Die zweite Frage dagegen kommt der Sprechweise eines menschlichen Mitarbeiters sehr nahe. Intuitiv passen sich die Anrufer an und behalten eher ihren natürlichen Redestil.

Nette Höflichkeitsfloskeln wie „Bitte“ oder „Danke“ gehören für uns wie selbstverständlich zu einem „normalen“ Gespräch dazu – daher sollte auch ein Voicebot, der als Bindeglied zwischen Kunde und Unternehmen zur Außenwirkung des Unternehmens beiträgt, grundlegende menschliche Anstandsregeln beherrschen.

Menschen tendieren dazu, selten denselben Wortlaut zu wiederholen: Wir variieren unsere Formulierungen. Wesentlich natürlichsprachlicher wirkt daher ein Voicebot, wenn auch er nicht immer dieselben Worte verwendet:

Anrufer: „In welchen Farben gibt es das Modell A?“
Voicebot: „Das Modell A gibt es in den Farben weinrot, hellblau und mint.
Anrufer: „Und in welchen Farben gibt es das Modell B?“
Voicebot: „In den Farben weinrot, dunkelbraun und lindgrün.
Anrufer: „Und das Modell C?“
Voicebot: „In beige, dunkelblau und pink.“

Wortschwall:
Weniger ist mehr

Blah blah blah: Lange Monologe wirken nicht natürlichsprachlichLange Monologe, die mag wohl niemand (sofern sie nicht von uns stammen). Und kommt der Redestrom von einem Voicebot, reagieren wir erst recht ungeduldig:

Voicebot: „Dreht es sich um eine private Haftpflichtversicherung, eine Familienhaftpflichtversichung, eine Haus- und Grundbesitzerhaftpflichtversicherung, eine Amtshaftpflichtversicherung oder um eine Vermögensschadenhaftpflichtversicherung?“

Im Menü einer Webseite ist eine Auflistung der verschiedenen Haftplicht-Arten durchaus übersichtlich und per Klick schnell und intuitiv ausgewählt. Für den Zuhörer am Telefon allerdings bedeutet eine derart lange Aufzählung zu viel Information auf einmal. Einfacher geht es mit einer einzigen Frage:

Voicebot: „Um welche Art der Haftpflicht dreht es sich?“

Zu viele Worte hängen die Anrufer leicht ab und führen dazu, dass sich der Fokus von den Anrufern auf das System verlagert. Im Mittelpunkt sollte aber immer der Mensch stehen: Der Voicebot dient dem Anrufer, und nicht umgekehrt.

Unser Gehirn muss außerdem auf Hochtouren arbeiten, um einem ausschweifendem Redeschwall sicher zu folgen. Und wenn die Sätze dann noch zu lang und verschachtelt und die Ausdrucksweise zu kompliziert ist, verärgert dies die Anrufer, die Mühe haben, die mannigfaltigen Informationen und die vielen Sätze komplett zu verstehen und entsprechend darauf zu reagieren, was bisweilen dazu führen kann, dass die Anrufer, die schnelle Hilfe erwarten, wenn sie eine Frage haben, genervt den Hörer auflegen, was sich auf die Qualität des Kundenservice, der die Kunden, die Hilfe benötigen, in den Mittelpunkt rücken sollte, eindeutig negativ auswirkt, denn zu viele Informationen auf einmal können uns einfach überfordern!

Fallstricke:
Floskeln und Redewendungen

Anrufer: „Kannst du mir die unterschiedlichen Farben des Modells XXX nennen?“
Voicebot: „Ja.“

Das ist zwar eine durchaus korrekte Antwort, aber nicht die, die der Anrufer eigentlich haben wollte. Da wir uns häufig mit Floskeln ausdrücken, ist ein natürlichsprachlicher Voicebot darauf trainiert, übliche Redewendungen und deren Absichten dahinter zu verstehen. Bei der Dialogerstellung müssen die Entwickler*innen also darauf achten, den Dialog nicht nur aus technischer Sicht zu erstellen, sondern auch den Menschen im Blickpunkt zu haben, der sich an mancher Stelle – aus der Sicht eines Voicebots – nicht unbedingt logisch ausdrückt.

Fazit

Natürlichwirkende Voicebots unterscheiden sich in vielerlei Hinsicht durch mehrere eindeutige Merkmale von herkömmlichen Systemen. Und seit den letzten Jahren spielt die natürlichsprachliche Mensch-Maschine-Kommunikation eine immer größere Rolle, denn Sprachassistenten wie Siri, Alexa oder der Google Assistant schrauben die Erwartungen der Anrufer in die Höhe: Auch am Telefon wünschen sich die Kunden nun ein gewisses Maß an Natürlichsprachlichkeit im Gespräch mit einem Voicebot.

Beziehen Sie am besten erfahrene Kundenservice-Mitarbeiter:innen in die Dialogerstellung mit ein, um die Natürlichkeit des Voicebots zu erhöhen. Denn sie wissen am besten, wie die Anrufer sich ausdrücken. Und lassen Sie auch unbedarfte Testpersonen einmal „probeanrufen“: Häufig fallen dann noch einige Schwachstellen auf, die in Angriff genommen werden sollten, um den Voicebot natürlicher wirken zu lassen.

Und falls doch einmal alle Fallstricke reißen, sollte ein natürlichsprachlicher Voicebot stets an einen Mitarbeiter weiterleiten, bevor das Gespräch in einer Sackgasse endet. Die moderne Technik ist sehr weit, doch nur so weit, dass sie die Mitarbeiter unterstützt – ersetzen kann sie Menschen jedoch nicht.

Bedenken Sie, dass der erste Kontakt zu einem Unternehmen häufig telefonisch aufgenommen wird. Daher ist ein natürlichsprachlicher Voicebot ein Muss – denn als Bindeglied zwischen Kunde und Unternehmen beeinflusst er die Außenwirkung eines Unternehmens maßgeblich. Ein guter erster Eindruck am Telefon entsteht nur, wenn der Anrufer das Gefühl erhält, im Mittelpunkt zu stehen. Und für den ersten Eindruck gibt es leider niemals eine zweite Chance!