Il cervello distingue le voci naturali da quelle finte

- EN- DE- FR- IT
(© Immagine: Depositphotos)
(© Immagine: Depositphotos)
Il cervello fa una differenza nell’elaborazione delle voci naturali rispetto alle loro imitazioni profonde? Sì, secondo i ricercatori dell’Università di Zurigo. In uno studio hanno identificato due aree del cervello che reagiscono in modo diverso ai segnali acustici.

Ogni persona ha un profilo vocale unico. Questo aiuta a identificare la persona. I più recenti algoritmi di sintesi vocale sono ora così potenti da poter creare cloni vocali artificiali che si avvicinano molto, in termini di qualità, alle caratteristiche di identità dei parlanti naturali. Mai prima d’ora è stato così facile imitare le voci naturali con le tecnologie deepfake, sia per tentativi di frode al telefono che per dare all’assistente vocale la voce della vostra attrice preferita.

Finora, tuttavia, non era chiaro come il cervello umano reagisse a queste voci finte e profonde. Le accetta come reali o riconosce il falso? Un team di ricerca dell’Università di Zurigo ha ora scoperto che, sebbene le persone spesso accettino l’identità rubata in un audio deepfake come naturale, il cervello reagisce in modo diverso alle voci deepfake rispetto alle voci naturali.

I ricercatori hanno innanzitutto utilizzato metodi psicoacustici per verificare quanto l’identità umana sia mantenuta nei cloni vocali imitati. I ricercatori hanno registrato le voci di quattro oratori maschi e hanno usato algoritmi informatici per generare voci finte di questi oratori. Nell’esperimento principale, 25 soggetti hanno ascoltato diverse voci e hanno dovuto decidere se l’identità di due voci fosse identica o meno. I compiti erano due: Si chiedeva loro di abbinare l’identità di due voci naturali o di una voce naturale e di una deepfake.

Questo ha dimostrato che le identità deepfake sono state assegnate correttamente nei due terzi dei casi. Questo dimostra che, sebbene le voci deepfake attuali non imitino perfettamente l’identità, hanno il potenziale per ingannare la percezione delle persone", afferma Claudia Roswandowitz, ricercatrice post-dottorato presso l’Istituto di linguistica computazionale.

Il sistema di ricompensa reagisce alle voci naturali, ma non ai falsi profondi

Utilizzando tecniche di imaging, i ricercatori hanno quindi studiato quali aree del cervello reagiscono in modo diverso alle voci finte rispetto a quelle naturali. Hanno identificato due aree centrali che riconoscono il falso: In primo luogo, una parte del sistema mesolimbico, il nucleus accumbens, reagisce in modo diverso alle voci false. Il nucleo accumbens è una parte importante del sistema di ricompensa del cervello. Era meno attivo quando ai soggetti del test veniva chiesto di confrontare l’identità tra le voci profonde e quelle naturali", spiega Claudia Roswandowitz. Al contrario, il nucleo accumbens era molto più attivo quando i soggetti dovevano confrontare due voci naturali.

La corteccia uditiva distingue la qualità acustica delle voci deepfake e di quelle naturali

La seconda area cerebrale attiva nell’esperimento sembra reagire alla differenza acustica tra le voci naturali e le voci finte: La corteccia uditiva, responsabile dell’analisi dei suoni, era più attiva quando si doveva confrontare l’identità tra la voce deepfake e quella naturale. Sospettiamo che quest’area reagisca all’imitazione acustica imperfetta delle voci finte e cerchi di compensare il segnale acustico mancante", spiega il primo autore. Quanto meno naturale e simpatica era percepita la voce finta rispetto alla sua controparte naturale, tanto maggiori erano le differenze di attività nella corteccia uditiva.

La parte falsa nelle voci deepfake sembra portare a un minor piacere di ascolto, e questo è relativamente indipendente dalla qualità del segnale acustico. Le persone possono quindi essere ingannate solo parzialmente dai deepfakes. In particolare, i meccanismi neuronali identificati nell’elaborazione dei deepfakes illustrano la resistenza umana alle informazioni false, che incontriamo sempre più spesso nella vita quotidiana", conclude Roswandowitz.

Letteratura:
Claudia Roswandowitz, Thayabaran Kathiresan, Elisa Pellegrino, Volker Dellwo, Sascha Frühholz. La rete cerebrale cortico-striatale distingue l’identità di un oratore deepfake da quella di un oratore reale. Commun Biol 7, 711 (2024). https://doi.org/10.1038/s42003­’024 -06372-6