Chaque personne a un profil vocal unique. Cela contribue à l’identification de la personne. Les algorithmes de synthèse vocale les plus récents sont désormais si puissants qu’ils peuvent créer des clones vocaux artificiels dont la qualité est très proche des caractéristiques d’identité des locuteurs naturels. Il n’a jamais été aussi facile d’imiter des voix naturelles avec les technologies de deepfake, soit pour des tentatives de fraude au téléphone, soit pour donner à un assistant vocal la voix de son actrice préférée.
Jusqu’à présent, on ne savait pas comment le cerveau humain réagissait à ces voix deepfake. Les accepte-t-il comme authentiques ou reconnaît-il le faux ? Une équipe de recherche de l’université de Zurich a découvert que si les gens acceptent souvent l’identité usurpée dans un audio deepfake comme naturelle, le cerveau réagit différemment aux voix deepfake qu’aux voix naturelles.
Les chercheurs ont d’abord testé, à l’aide de méthodes psychoacoustiques, dans quelle mesure l’identité humaine était préservée dans les clones vocaux imités. Les chercheurs ont enregistré les voix de quatre locuteurs masculins et ont généré des voix deepfake de ces locuteurs à l’aide d’algorithmes informatiques. Dans l’expérience principale, 25 sujets ont entendu plusieurs voix et devaient décider si l’identité de deux voix était identique ou non. Ils avaient deux tâches à accomplir : Soit ils devaient comparer l’identité de deux voix naturelles, soit celle d’une voix naturelle et d’une voix de deepfake.
Il s’est avéré que les identités deepfake ont été correctement attribuées dans deux tiers des cas. Cela montre que les voix deepfake actuelles n’imitent pas parfaitement l’identité, mais qu’elles ont le potentiel de tromper la perception des gens", explique Claudia Roswandowitz, post-doctorante à l’Institut de linguistique informatique.
Le système de récompense réagit aux voix naturelles, mais pas aux deepfakes
A l’aide de techniques d’imagerie, les chercheurs ont ensuite examiné quelles zones du cerveau réagissaient de manière différente aux voix deepfake par rapport aux voix naturelles. Ils ont ainsi identifié deux zones centrales qui reconnaissent les fausses voix : D’une part, une partie du système mésolimbique, le noyau accumbens, réagit différemment aux voix de deepfake. Le noyau accumbens est un élément important du système de récompense dans le cerveau. Il était moins actif lorsque les sujets devaient faire correspondre l’identité entre les deepfakes et les voix naturelles’, explique Claudia Roswandowitz. En revanche, le noyau accumbens était beaucoup plus actif lorsque les sujets devaient comparer deux voix naturelles.Le cortex auditif distingue la qualité acoustique des deepfakes et des voix naturelles
La deuxième zone du cerveau qui était active chez les participants à l’expérience semble réagir à la différence acoustique entre la voix naturelle et la deepfake : Le cortex auditif, responsable de l’analyse des sons, était plus actif lorsqu’il s’agissait de faire correspondre l’identité entre la voix deepfake et la voix naturelle. Nous supposons que cette zone réagit à l’imitation acoustique encore imparfaite des voix ’deepfake’ et tente de compenser le signal acoustique manquant’, explique la première auteure. Moins la voix contrefaite était perçue comme naturelle et sympathique par rapport à son homologue naturelle, plus les différences d’activité dans le cortex auditif étaient importantes.La part de fausses voix dans les deepfakes semble entraîner un moindre plaisir d’écoute, et ce relativement indépendamment de la qualité du signal acoustique. ’L’homme ne peut donc être que partiellement trompé par les deepfakes. Les mécanismes neuronaux identifiés lors du traitement des deepfakes, en particulier, illustrent la résistance humaine aux informations falsifiées que nous rencontrons de plus en plus souvent dans la vie quotidienne’, conclut Roswandowitz.
Littérature:
Claudia Roswandowitz, Thayabaran Kathiresan, Elisa Pellegrino, Volker Dellwo, Sascha Frühholz. Le réseau cérébral cortical-striatal distingue la fausseté de l’identité du locuteur réel. Commun Biol 7, 711 (2024). https://doi.org/10.1038/s42003’024 -06372-6