Il riconoscimento automatico del parlato (ASR) ha compiuto notevoli progressi negli ultimi anni, soprattutto per le lingue di uso comune a livello globale come l’inglese. Mentre prima del 2020 si pensava che le capacità di riconoscimento vocale umano fossero di gran lunga superiori a quelle dei sistemi automatici, alcuni sistemi attuali mostrano prestazioni comparabili. L’obiettivo dell’ulteriore sviluppo dell’ASR è stato quello di ridurre al minimo il tasso di errore, indipendentemente dalle prestazioni umane nello stesso ambiente di rumore. Questo perché anche gli esseri umani non raggiungono una precisione perfetta in ambienti rumorosi.
Nel loro recente studio, la linguista computazionale Eleanor Chodroff dell’UZH e la sua collega Chloe Patman dell’Università di Cambridge hanno confrontato le prestazioni di riconoscimento vocale di due sistemi popolari - "wav2vec 2.0" di Meta e "Whisper" di OpenAI - direttamente con parlanti nativi britannici. Hanno testato i sistemi ASR in condizioni di rumore simile a quello del parlato o del pub, sia con che senza maschera di cotone.
I risultati hanno dimostrato che gli esseri umani sono superiori a entrambi i sistemi ASR. Tuttavia, l’ultimo sistema OpenAI "Whisper large-v3" ha nettamente superato le prestazioni umane in tutte le condizioni testate, ad eccezione del rumore realistico del pub, dove è stato in grado di eguagliare le prestazioni umane.
Whisper large-v3 ha dimostrato la sua capacità di elaborare le proprietà acustiche del parlato e di abbinarle con successo a una frase. Questo risultato è stato impressionante quando le frasi testate sono state estrapolate dal contesto ed è stato difficile prevedere una parola dalle parole precedenti", spiega Eleanor Chodroff, esperta dell’UZH.
Un’analisi più approfondita dei sistemi ASR e dei loro metodi di addestramento mostra quanto siano ancora notevoli le prestazioni umane. Entrambi i sistemi testati si basano sull’apprendimento profondo, ma il sistema più potente, "Whisper", richiede una quantità immensa di dati di addestramento. Mentre "wav2vec 2.0" di Meta è stato addestrato su 960 ore di dati in lingua inglese, il sistema standard di Whisper ha utilizzato più di 75 anni di dati linguistici. Il sistema che ha superato le capacità umane ha utilizzato addirittura più di 500 anni di dati vocali. Gli esseri umani raggiungono queste prestazioni in pochi anni", sottolinea Chodroff. Inoltre, il riconoscimento automatico del parlato in quasi tutte le altre lingue rimane una sfida importante.
Gli ascoltatori inglesi hanno quasi sempre formato frasi grammaticalmente corrette, ma spesso hanno scritto frammenti di frase invece di cercare di fornire una parola scritta per ogni parte della frase pronunciata. wav2vec 2.0", invece, ha spesso prodotto frasi incomprensibili nelle condizioni più difficili. Whisper" ha prodotto frasi grammaticalmente corrette, ma tendeva a riempire i vuoti con informazioni completamente errate.