
25 Jahre Sprachtechnologie: Was hat sich technisch geändert?
Anlässlich der 50-Jahre-Feier des Lehrstuhls für Mustererkennung an der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) sprach Sympalog-Geschäftsführer Dr. Martin Schröder über die Entwicklung der Sprachdialogsysteme und deren beeindruckenden Wandel in den letzten Jahren. Dabei stellte sich eine zentrale Frage: Was genau hat sich technisch verändert – und wie profitieren Unternehmen heute davon?
Die Geschichte von Sympalog ist eng mit der Wissenschaft an der Erlanger Universität (FAU) verbunden: Aus einer Gruppe hochkarätiger Experten des Lehrstuhls für Mustererkennung entstand Anfang der 1990er-Jahre ein Team, das 1993 das weltweit erste natürlich-sprachliche Dialogsystem entwickelte – zu einer Zeit, als Sprachtechnologie noch als Zukunftsmusik galt. Auf dieser Basis wurde 1998 die Idee für Sympalog geboren, 2003 folgte die Gründung der Sympalog Voice Solutions GmbH. Seither bringen wir die Forschung aus Erlangen erfolgreich in kommerzielle Lösungen ein.
Unser Ziel war und ist es, die Kommunikation zwischen Mensch und Maschine so intuitiv wie möglich zu gestalten – und dafür wurden wir bereits früh ausgezeichnet, unter anderem mit dem IST-Prize der Europäischen Kommission (2001) und dem Voice Award (2004). Eines unserer bekanntesten Beispiele ist der Bot „Berti“, der schon 2003 charmant und kompetent telefonische Anfragen zur Bundesliga beantwortete.
Aus Sicht der Nutzerinnen und Nutzer hat sich seit damals erstaunlich wenig verändert: Sie stellen Fragen, erhalten präzise Antworten – und erleben ein natürliches Gespräch. Doch unter der Haube hat sich die Welt grundlegend gewandelt:
Die wichtigsten Technologiesprünge
1. Vom ISDN-Anschluss zur softwarebasierten SIP/VoIP-Telefonie
Frühe Sprachdialogsysteme waren fest an ISDN-Infrastruktur gebunden. Hardware, Telefonkarten und spezielle Treiber waren zwingend nötig.
Mit dem Übergang zu SIP/VoIP (ab ca. 2005) wurde die Anbindung jedoch softwarebasiert – und damit flexibler und skalierbarer.
2. Von Grammatikregeln zu kontextfreier Spracherkennung (EML)
Mussten wir früher noch mühsam Grammatiklisten pflegen und kontextspezifisches Trainingsmaterial anwenden, verstehen moderne Erkenner gesprochene Sprache kontextfrei – ohne vordefinierte Regeln oder spezielles Training.
3. Verbesserter Klang der Sprachausgabe
Moderne Text-to-Speech-Stimmen klingen heute so natürlich, dass sie sich hervorragend für Standard-Voicebots eignen – insbesondere dort, wo eine klare, gut verständliche Stimme wichtiger ist als ausgeprägte Empathie oder emotionale Nuancen.
Cloudbasierte TTS-Lösungen sind heute trotz guter Qualität weitaus erschwinglicher.
4. Transformer-Modelle wie BERT
Die Einführung der Transformer-Architektur ermöglicht eine exaktere Klassifikation auch mit kleinen Trainingsmengen (30 bis 50 Äußerungen) und liefert Ergebnisse in Millisekunden – selbst auf Standard-Hardware.
5. Large Language Models
LLMs wie GPT, Claude oder Llama erlauben Klassifikation ohne große Trainingsdaten (zero-shot oder few-shot) und steuern Dialoge dynamisch anhand des Gesprächskontexts. Sie eignen sich zudem hervorragend für Qualitätssicherung, indem sie fehlerhafte Antworten oder Klassifikationen erkennen.
6. Offene ASR-Modelle (Automatic Speech Recognition) auf Transformer-Basis
Spracherkennungssysteme wie Whisper gehören zur Klasse der ASR-Modelle (Automatic Speech Recognition). Sie sind extrem fehlertolerant, mehrsprachig und erkennen Sprache selbst bei stark variierender Audioqualität, Dialekten oder Hintergrundgeräuschen.
Offene ASR-Modelle auf Transformer-Basis ermöglichen eine robuste und flexible Verarbeitung des Eingangssignals – und setzen neue Standards in der automatischen Spracherkennung.
7. Cloud-Technologie
Leistungsfähige Modelle laufen heute in der Cloud und sind sofort nutzbar. Standard-APIs (REST/JSON) sowie fertige Bibliotheken erleichtern die Integration enorm.
Cloud-Dienste ermöglichen schnelle Pilotprojekte – allerdings nur, solange alle Schnittstellen, Datenformate und Systemvoraussetzungen reibungslos funktionieren.
Beim Einsatz in produktiven Unternehmensumgebungen spielen zusätzlich Datenschutz und Compliance eine entscheidende Rolle: Je sensibler die Daten, desto wichtiger wird die sorgfältige Auswahl einer geeigneten, DSGVO-konformen Cloud- oder On-Premise-Lösung.
Was bedeutet dieser Wandel konkret für Unternehmen?
Für Unternehmen, die heute Voicebots einsetzen, haben die technologischen Neuerungen tiefgreifende Folgen:
- Schnellere Entwicklung: Früher mussten Dialoge und Grammatiken manuell gepflegt werden; heute reichen kleine Trainingsmengen.
- Bessere Qualität: Moderne Modelle erkennen Dialekte, Akzente oder emotionale Nuancen viel präziser.
- Sprachausgabe (Text-to-Speech): Während frühe TTS-Systeme oft noch künstlich klangen (so dass wir häufig professionelle Sprecher:innen für feste Ansagen einsetzten), liefert modernes Text-to-Speech heute eine deutlich natürlichere Sprachqualität als früher.
- Niedrigere Einstiegshürden: Cloud-APIs und Standard-Schnittstellen ermöglichen Voicebots für einfache Anwendungsfälle.
- Höhere Flexibilität: Änderungen sind heute weitaus schneller durchführbar.
Unser Ziel bleibt unverändert
Trotz aller technologischen Fortschritte bleibt unser Ziel dasselbe wie vor 25 Jahren: Maschinen sollen so menschlich wie möglich kommunizieren. Und dieser Anspruch, geboren aus wissenschaftlicher Neugier und praktischer Leidenschaft, begleitet uns bis heute.