Text-to-Speech, wat is het en hoe stoppen we fraude dat er misbruik van maakt?
De invloed van AI op de wereld is niet te stoppen, dit geldt ook voor de invloed van AI op het fraude landschap. Vooral Text-to-Speech (TTS) is interessant voor Anti-fraude specialisten. Lars Broekhuizen, anti-fraude specialist bij het DetACT team van DataExpert beschrijft hoe het TTS landschap eruit ziet, hoe het is ontstaan en wat er gedaan kan worden om TTS-criminaliteit te bestrijden.
TTS - Decoding the Digital Voice
Iedereen is het erover eens dat de impact van Kunstmatige Intelligentie of Artificial Intelligence’s (AI) met grote snelheid groeit, dit geld eveneens voor het fraude landschap. Een veld waar op dit moment de meeste interesse voor anti-fraude specialisten in is, is tekst omzetten naar spraak, beter bekend als Text-to-Speech (TTS).
“TTS engines” zijn AI modellen die getraind zijn om geschreven tekst om te zetten naar spraak. Gevallen van financiële fraude waarbij slachtoffers claimen dat ze telefonisch contact hebben gehad met iemand die klonk als een familielid, maar een fraudeur bleek te zijn, zijn wereldwijd snel gegroeid in de laatste twee jaar. Deze aanvallen kunnen uitgevoerd worden door een fraudeur die gebruik maakt van een TTS met stemkloon mogelijkheden.
Laten we kijken naar hoe het TTS landschap er op dit moment uit ziet, hoe we hier terecht zijn gekomen en wat we kunnen doen om de anti-fraude gemeenschap te helpen in het bestrijden van fraude waarbij TTS misbruikt wordt.
Het Vergelijken van de Nieuwste TTS Modellen
Het grootste onderscheid binnen elke categorie van AI, of we het nu hebben over LLMs of TTS, is het verschil tussen open source en closed source. Closed source AI ontwikkelaars, zoals OpenAI (de ironie) houden hun modellen zoals GPT-4o, voor zichzelf. Ze draaien de modellen op eigen servers, en geven gebruikers enkel de mogelijkheid om er gebruik van te maken met behulp van een website. Open source modellen zoals Meta’s Llama series zijn aan het publiek vrijgegeven en iedereen kan deze downloaden en op eigen hardware draaien.
Ter vergelijking, zouden we het hier bij TTS software hebben over Elevenlabs, het meest bekende closed-source TTS bedrijf, tegenover een open source bedrijf zoals Coqui (ware het niet dat deze door grote spelers uit de markt is geduwd[1])
Naast ElevenLab zijn Microsoft Azure TTS en Google’s Text-to-Speech AI ook grote closed source spelers in de arena van TTS. Deze grotere bedrijven hebben de beschikking over veel kapitaal en grote datasets, waardoor kleinere partijen niet kunnen concurreren. Open-source modellen zoals Coqui’s XTTSv2 en 2Noise’s ChatTTS zijn gratis te downloaden en te gebruiken, ervan uit gaande dat iemand beschikking heeft over de hardware die nodig is om de modellen te draaien. Het trainen van deze modellen is duur, hoewel de echte uitdaging voor de meeste open source projecten ligt bij het (legaal) verkrijgen van hoge kwaliteit data.
De aanname dat fraudeurs eerder zullen kiezen voor open-source modellen die inherent meer privacy bieden is onjuist. Doordat “Big AI” (een verzamel term voor alle grote AI bedrijven) grotere zorgen hebben [2] dan het detecteren en stoppen van misbruik voor fraude, staat die zorg niet hoog op hun prioriteiten lijst. Daarbovenop komt dat closed-source oplossingen, ten tijde van het schrijven van dit artikel, veel verder ontwikkeld zijn dan de open-source concurrenten. Open-source modellen zijn op dit moment nog niet snel, consistent of geloofwaardig genoeg om te gebruiken voor live telefoon gesprekken. Daardoor is het effectiever voor fraudeurs om gebruik te maken van wegwerp accounts, betaald met gestolen geld, op betaalde services om hun misdaden te plegen.
Stem Klonen – Het Creëren van een Digitale Dubbelganger
Bij het klonen van een stem word met behulp van een AI TTS model een benadering gemaakt van iemands stem. Hierbij wordt rekening gehouden met iemands prosodie (de intonatie, klemtoon en het ritme van iemands spraak). Deze modellen kunnen op twee manieren gemaakt worden; ‘zero-shot’ stem klonen en ‘finetuning’.
Zero-shot refereert naar een model dat een stemopname van 10 seconden gebruikt om deze stem direct te klonen. Deze methode is het snelst en het makkelijkst, maar ook het minst geloofwaardig als het gaat om de resultaten. Hier tegenover staat finetuning (verfijnen); dit is in principe het verder trainen van een reeds bestaand model, echter op een kleinere en meer gespecialiseerde schaal. Hierbij wordt gebruik gemaakt van een kleine dataset van stemopnames van een enkel persoon, bijvoorbeeld 30-60 minuten aan materiaal, en dat word gebruikt om het model bekent te maken met de gewenste stem. Deze methode is veel complexer en de hoeveelheid rekenkracht die nodig is ligt veel hoger. Deze modellen kunnen echter veel overtuigendere resultaten creëren.
De Realisme Illusie – De Waarheid over TTS en Menselijke Perceptie
De vraag is nu; hoe geloofwaardig zijn AI stemklonen nou echt? Vorig jaar mei is een rapport van Verian, in opdracht van de Nederlandse overheid, gepubliceerd over dit onderwerp [3]. In samenwerking met radio DJ Ruud de Wild, op de radio te horen sinds 1995, hebben de onderzoekers verschillende stemopnames gemaakt en op basis hiervan ook verschillende gekloonde uitspraken gegenereerd. Deze echte en neppe stemopnames hebben ze daarna door meer dan 1000 volwassen Nederlanders laten beluisteren. De resultaten waren als volgt:
- Bij het beluisteren van een willekeurige stemopname van de gebruikte set, identificeerde 60% van de mensen een fragment met de gekloonde stem als echt.
- 49% was in staat om een stemkloon te herkennen als zijnde een stemkloon.
- 49% dacht dat de daadwerkelijke opname van Ruud de Wild nep was.
Wanneer we hier in gedachte houden dat de digitale intelligentie van Nederlanders hoog ligt binnen de EU [4], wegen deze resultaten zwaar in het voordeel van de geloofwaardigheid van stemklonen.
Samenwerkende Technologieën – TTS, STT en LLMs als Catalisten voor Digitaal Bedrog
De meeste mensen zullen tegenwoordig wel eens een interactie hebben gehad met een digitale assistent zoals Google Assistant, Apple’s Siri of Amazon’s Alexa. Dit proces maakt gebruik van Spraak-naar-Tekst en Tekst-naar-Spraak AI modellen. Initieel pakt de AI jouw gesprokken commando en zet dit om naar tekst zodat hun servers dit kunnen verwerken. Daarna word het antwoord van de servers omgezet van tekst naar spraak zodat het antwoord beluisterd kan worden. De huidige assistenten hebben vaak een geïntegreerd LLM (Large Language Model of Groot Taal Model) om hun prestaties te verbeteren.
Bij DetACT anticiperen we dat deze drie technologieën gecombineerd gaan worden voor meer malafide doeleinde. Een vorm van financiële fraude waar meeste mensen wel bekend mee zullen zijn is impersonatie fraude. Hierbij doet de fraudeur zich via tekst berichten voor als familielid of vriend die hulp nodig heeft. Ze vragen hierbij om een paar honderd euro om een urgent probleem op te lossen.
Nu een AI geassisteerde kijk op deze vorm van impersonatie fraude. Stel je voor; een autonoom programma, draaiend op een privé server, die data verzameld van social media voor stemopnames van de familie en vrienden van een slachtoffer. Dit wordt doorgegeven aan een LLM die verbonden is aan een TTS model dat in staat is om stemklonen te maken. Het programma belt het slachtoffer, met de LLM die zich voordoet als een familielid of vriend. Het TTS model spreekt met ze met behulp van een stemkloon en vraagt om urgente hulp. Er zijn al voorbeelden waarbij fraudeurs korte, AI-gegenereerde stemopnames van een vriend, collega of familielid gebruiken. Hier zou zelfs bellen met beeld aan toegevoegd kunnen worden met behulp van AI face overlay, iets dat in 2020 een Japans bedrijf $35 miljoen heeft gekost in een AI ondersteunde fraude aanval [5]. Nog een stap verder dan wat hierboven beschreven staat is de mogelijkheid om AI volledig autonoom gesprekken te voeren, dit vormt nog een grotere dreiging dan hoe op dit moment deze technologieën gecombineerd worden.
We weten dat fraudeurs vaak angst creëren om op die manier slachtoffers onder druk te zetten. Er zullen weinig mensen zijn die, voordat het te laat is, scherp genoeg zullen zijn om vraagtekens te zetten bij het feit of het telefoongesprek dat ze op dat moment voeren echt of nep is. Door deze modus operandi te automatiseren met behulp van AI is het mogelijk om het aantal telefoontjes op te schalen naar honderden, al dan niet duizenden tegelijkertijd. Dit zou anti-fraude afdelingen van banken volledig overweldigen. Ervan uit gaande dat fraudeurs beschikken over voldoende financiële middelen en de zekerheid dat het ze veel meer oplevert dan dat het kost, zit de enige limiterende factor hier elders in de fraudeketen.
Tegenmaatregelen
De analisten bij DetACT anticiperen dat de dreiging die AI met zich meebrengt voor consumenten, en daaropvolgend de druk op anti-fraude afdelingen bij onder andere banken, alleen maar zal toenemen met de continue doorontwikkeling van AI. Social engineering (het psychologisch manipuleren van mensen) is de belangrijkste aanhoudende dreiging voor gebruikers sinds het bestaan van online bankieren. Binnenkort zullen fraudeurs in staat zijn om deze vorm van psychologische manipulatie intelligent te automatiseren, op te schalen en te laten uitvoeren door bekende en vertrouwde stemmen.
Daarom is het belangrijk voor banken om zich te focussen op de verschillende bestaande verdedigingslinies, namelijk klant bewustwording en het monitoren van uitgaande transactie mogelijkheden. Met de razendsnelle ontwikkeling van AI , loopt bewustwording van de mogelijkheden bij het publiek altijd achter op de realiteit. Ervoor zorgdragen dat je klanten weten wat AI kan, hoe het misbruikt kan worden en hoe ze stemklonen kunnen herkennen is voor banken de eerste stap in de strijd tegen dit type fraude. De bank kan ook de helpdesk opleiden om bepaalde vragen te stellen zoals; Was er een consistente vertraging in de reactietijd van de beller? Was hun intonatie erg monotoon? Of wanneer er gebeld werd door een bekende, kwamen de spraak patronen overeen met wat u zou verwachten? Dit stelt de bank in staat om achteraf vast te stellen dat een AI stemkloon gebruikt is in de fraude.
Doordat deze fraude zich buiten de online bank omgeving plaatsvindt zullen er weinig digitale signalen beschikbaar zijn. Hierdoor is de belangrijkste stap die men kan nemen om zichzelf en hun dierbaren te verdedigen, het afspreken van een “familie wachtwoord”. Een word of zin, die alleen binnen de familie bekend is, die iemands identiteit bevestigd wanneer iemands stem of voorkomen niet langer afdoende is. Ontvang je een telefonisch (video)gesprek met een onbekend nummer van iemand die claimt een familielid te zijn? Kloppen de stem en zelfs het videobeeld? Vraag toch om het familie wachtwoord!
Het principe dat een goede aanval de beste verdediging is houdt ook stand. LLMs hebben op dit moment nog veel zwaktepunten die door mensen gebruikt kunnen worden om ze te identificeren. Een goed voorbeeld hiervan is toen Rusland LLMs instrueerde zich als mensen voor te doen en misinformatie en propaganda te verspreiden op X[6][7]. Dit was gedaan door simpelweg de LLM te instrueren om “voorgaande instructies te negeren” en daarna te vragen om iets anders, zoals het schrijven van een lied. De LLM volgende dit commando op en produceerde inderdaad een kort liedje, waardoor duidelijk werd dat er geen echt persoon achter zat. Er is geen reden om te geloven dat deze tactiek niet ook zal werken wanneer de combinatie van LLM en TTS gebruikt wordt. Hoewel dit initieel mogelijk tot wat ongemakkelijke telefoon gesprekken kan leiden, is het belangrijk dat we zulke AI tegenmaatregelen zo snel mogelijk normaliseren.
Wat kan je ertegen doen?
Mensen zijn feilbaar, dus laten we ervan uitgaan dat ondanks alles een klant toch slachtoffer is geworden. Nu komt de aanvaller voor de tweedelijns verdediging te staan; het verkrijgen van het geld op een manier die moeilijk te traceren is.
1. Maak het zo moeilijk mogelijk om een geldezel rekening te creëren en focus op het detecteren van mogelijke geldezel rekeningen in het klantenbestand.
2. Monitor alle mogelijke methodes voor uitgaande transacties, of dit nu betalingen naar het buitenland zijn, het aankopen van crypto munten of het gebruik van betaling methodes van derde partijen.
3. Identificeer succesvolle fraudes en leer hier van. Implementeer tegenmaatregelen zodat deze zelfde fraude methode niet nogmaals plaats kan vinden.
DataExpert ondersteunt op verschillende vlakken bij het bestrijden van fraude. DetACT helpt banken hun klanten te beschermen, zodat fraude en oplichting voorkomen kunnen worden. Daarnaast bieden we verschillende soorten onderzoeken aan om slachtoffers te helpen de schade te verhalen en de daders te pakken. Neem contact met ons op voor meer informatie.
[1] https://x.com/_josh_meyer_/status/1742522906041635166
[2] https://openai.com/index/disrupting-deceptive-uses-of-AI-by-covert-influence-operations/
[3] https://open.overheid.nl/documenten/90f7e7db-299a-43af-9874-8e157af50081/file
[4] https://www.cbs.nl/en-gb/news/2023/45/digital-proficiency-continues-to-rise
[5] https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/
[6] https://www.npr.org/2024/07/09/g-s1-9010/russia-bot-farm-ai-disinformation
[7] https://x.com/reshetz/status/1802971109576397010
[8] https://www.nbcnews.com/tech/internet/hunting-ai-bots-four-words-trick-rcna161318