La reconnaissance automatique de la parole (RAL) a fait des progrès remarquables ces dernières années, en particulier pour les langues utilisées couramment à l’échelle mondiale comme l’anglais. Alors qu’avant 2020, on pensait que les capacités de reconnaissance vocale humaine étaient largement supérieures à celles des systèmes automatiques, certains systèmes actuels affichent des performances comparables. L’objectif du développement de l’ASR était de minimiser le taux d’erreur, indépendamment de la performance des humains dans le même environnement sonore. En effet, même les humains n’atteignent pas une précision parfaite dans des environnements bruyants.
Dans leur étude actuelle, Eleanor Chodroff, linguiste informatique de l’UZH, et sa collègue Chloe Patman de l’Université de Cambridge ont comparé les performances de reconnaissance vocale de deux systèmes populaires - ’wav2vec 2.0’ de Meta et ’Whisper’ d’OpenAI - directement avec des locuteurs natifs britanniques. Ils ont testé les systèmes ASR dans des conditions telles qu’un bruit semblable à celui de la parole ou le bruit d’un pub, avec ou sans masque facial en coton.
Les résultats ont montré que les humains étaient supérieurs aux deux systèmes ASR. Cependant, le dernier système OpenAI ’Whisper large-v3’ a nettement surpassé les performances humaines dans toutes les conditions testées, sauf dans le bruit réaliste d’un pub, où il a pu rivaliser avec les performances humaines.
Whisper large-v3’ a ainsi démontré sa capacité à traiter les propriétés acoustiques de la parole et à les associer avec succès à une phrase. ’C’était impressionnant lorsque les phrases testées étaient sorties de leur contexte et qu’il était également difficile de prédire un mot à partir des mots précédents’, explique Eleanor Chodroff, experte de l’UZH.
Un regard plus attentif sur les systèmes ASR et leurs méthodes d’entraînement montre à quel point les performances humaines restent remarquables. Les deux systèmes testés sont basés sur le deep learning, mais le système le plus performant, ’Whisper’, nécessite d’immenses quantités de données d’entraînement. Alors que ’wav2vec 2.0’ de Meta a été entraîné avec 960 heures de données linguistiques anglaises, le système standard de ’Whisper’ a eu recours à plus de 75 ans de données linguistiques. Le système qui a réellement surpassé les capacités humaines a même utilisé plus de 500 ans de données linguistiques. Les humains atteignent cette performance en quelques années seulement", souligne Chodroff. En outre, la reconnaissance automatique de la parole dans presque toutes les autres langues reste un grand défi.
Les auditeurs anglais formaient presque toujours des phrases grammaticalement correctes, mais écrivaient souvent des fragments de phrases au lieu d’essayer de fournir un mot écrit pour chaque partie de la phrase parlée. En revanche, ’wav2vec 2.0’ produisait souvent du charabia dans les conditions les plus difficiles. Whisper’ fournissait des phrases grammaticalement correctes, mais avait tendance à remplir les trous avec des informations totalement erronées.