Die Beziehung zwischen Banken und ihren Kunden am Telefon hat sich in den letzten 30 Jahren nicht grundlegend verändert. Ein Kunde ruft an, authentifiziert sich mit seiner Kundennummer und seinem Geburtsdatum, wartet 8 bis 12 Minuten in der Wartemusik und erklärt dann sein Problem einem Agenten, der ihn möglicherweise an den richtigen Service weiterleitet. Im Jahr 2026 ist dieses Erlebnis im Begriff, zu verschwinden — ersetzt durch eine sofortige biometrische Sprachauthentifizierung und KI-Agenten, die in der Lage sind, 80 % der Vorgänge ohne menschliches Eingreifen zu bewältigen.
Die biometrische Sprachauthentifizierung
Die Stimme ist ein einzigartiger biometrischer Identifikator: Die akustischen Merkmale jeder menschlichen Stimme (Formanten, Grundfrequenzen, Klangfarbe, Atemrhythmus) bilden ein "Stimmenabdruck", der ebenso unterscheidbar ist wie Fingerabdrücke. Moderne Voice Authentication-Systeme vergleichen die Stimme des Kunden mit seinem gespeicherten Abdruck (der bei der Registrierung erstellt wurde) mit einer Genauigkeit von 99,8 % bei erwachsenen Bevölkerungsgruppen.
Der Vorteil gegenüber PIN oder Passwort: Die Stimme kann nicht über abgefangene SMS übertragen werden (SIM-Swapping-Angriff), wird nicht vergessen und kann mit anderen Faktoren kombiniert werden, um die Anforderungen der DSP2 (Richtlinie über Zahlungsdienste 2) an die starke Zwei-Faktor-Authentifizierung zu erfüllen.
Die gängigen Vorgänge im Sprach-Selbstbedienungsdienst
Einmal authentifiziert, kann der Kunde ohne menschlichen Agenten eine wachsende Anzahl von Vorgängen durchführen:
- Kontostand und Historie der letzten 30 Transaktionen abfragen
- Kartenwiderspruch anfordern (24/7 verfügbar, sofortige Bearbeitung)
- Überweisung zwischen eigenen Konten oder an einen bestehenden Empfänger
- Anforderung von RIB und Verwaltungsdokumenten
- Berichterstattung über eine verdächtige Transaktion
- Änderung des temporären Kartenlimits
- Terminvereinbarung mit einem Berater
Diese 7 Vorgänge machen im Durchschnitt 72 % des Anrufvolumens einer Filialbank aus. Ihre Automatisierung entlastet die Berater für wertschöpfende Tätigkeiten: Vermögensverwaltung, Kredite, komplexe Situationen.
Die Echtzeit-Sprachbetrugserkennung
Über die Authentifizierung hinaus analysiert die KI kontinuierlich die Betrugssignale während des Gesprächs. Ein Anruf, bei dem die Stimme synthetisch ist (Deepfake-Stimme), wird durch spezifische spektrale Marker erkannt, die für von KI generierte Stimmen charakteristisch sind. Ein Szenario der sozialen Manipulation (der Kunde, der Informationen wiederholt, als würde er sie lesen, oder der mit ungewöhnlichen Verzögerungen auf Kontrollfragen antwortet) löst einen diskreten Alarm an das Betrugsteam aus.
Diese Echtzeit-Erkennung hat es ermöglicht, die erfolgreichen Betrugsfälle im Jahr 2025 um 23 % in den implementierten Bereichen zu reduzieren, basierend auf den konsolidierten Daten von Vocalis über seine Kunden im Bankensektor.
Der Fall der Neobanken
Die Neobanken (Revolut, Lydia, Qonto, Shine) haben ihren Erfolg auf reibungslosen mobilen Schnittstellen aufgebaut, leiden jedoch unter einer Achillesferse: dem Fehlen eines glaubwürdigen Sprachsupports. "Kein Telefon, nur Chat" ist für alltägliche Vorgänge akzeptabel, führt jedoch zu Krisen, wenn ein Kunde, der mit einem dringenden Problem (dringender Widerspruch, erkannter Betrug, gesperrter Zugang) konfrontiert ist, keinen Menschen erreichen kann.
Der KI-Sprachagent ermöglicht es den Neobanken, einen 24/7-Sprachsupport anzubieten, ohne die Kosten eines menschlichen Callcenters. Der Ablauf ist klar: Der Kunde ruft an, die KI authentifiziert, bearbeitet 70 % der Fälle autonom und überträgt die restlichen 30 % an einen menschlichen Agenten — mit einer Zusammenfassung der Interaktion, um Wiederholungen zu vermeiden.
"Unsere Rate an Anrufen, die ohne menschliches Eingreifen bearbeitet werden, ist von 12 % auf 71 % in 8 Monaten gestiegen. Die Kunden, die den KI-Agenten ausprobiert haben, haben einen NPS von +8 Punkten im Vergleich zu denen, die nur über unsere App gehen." — Leiter der Kundenerfahrung, Neobank B2B
Die durchschnittlichen Ergebnisse im Bankensektor
- -55 % der Callcenter-Kosten (reduziertes menschliches Volumen)
- 99,8 % Genauigkeit bei der biometrischen Sprachauthentifizierung
- 24/7 für Kartenwiderspruch, Kontostandsabfrage, Überweisungen an Empfänger
- -23 % erfolgreicher Betrug (Deepfake-Erkennung + soziale Manipulation)
- +31 Punkte NPS im telefonischen Kontakt