Gli scienziati dell’EPFL hanno sviluppato un algoritmo in grado di addestrare una rete neurale analogica con una precisione equivalente a quella di una rete digitale. Questo apre la strada allo sviluppo di hardware per l’apprendimento profondo a minor consumo energetico.
Grazie alla loro capacità di elaborare grandi quantità di dati attraverso l’"apprendimento" algoritmico piuttosto che la programmazione tradizionale, le reti neurali profonde come Chat-GPT danno spesso l’impressione di avere un potenziale illimitato. Ma con l’aumento della portata e dell’impatto di questi sistemi, sono cresciute anche le loro dimensioni, la loro complessità e il loro consumo di energia, quest’ultimo abbastanza elevato da sollevare preoccupazioni sul loro contributo alle emissioni globali di carbonio.
Mentre spesso pensiamo al progresso tecnologico in termini di transizione dall’analogico al digitale, gli specialisti stanno ora cercando risposte a questo problema nelle alternative fisiche alle reti neurali profonde digitali. Romain Fleury, del Laboratory of Wave Engineering (LWE) della Facoltà di Scienze e Tecniche dell’Ingegneria dell’EPFL, è uno di questi scienziati. In un articolo pubblicato sulla rivista Science, Romain Fleury e i suoi colleghi descrivono un algoritmo per l’addestramento di sistemi fisici che offre maggiore velocità e robustezza, oltre a un consumo energetico ridotto rispetto ad altri metodi.
"Abbiamo testato con successo il nostro algoritmo di addestramento su tre sistemi fisici che utilizzano le onde sonore, le onde luminose e le microonde per trasportare le informazioni, anziché gli elettroni. Ma il nostro approccio versatile può essere utilizzato per addestrare qualsiasi sistema fisico", afferma Ali Momeni, autore principale dello studio e ricercatore presso l’LWE.
Un approccio biologicamente più plausibile
Con l’addestramento delle reti neurali, i sistemi imparano a generare i valori ottimali dei parametri per un compito come il riconoscimento delle immagini o del parlato. L’addestramento delle reti neurali prevede in genere due fasi: un passaggio in avanti, in cui i dati vengono fatti passare attraverso la rete e viene calcolata una funzione di errore in base all’output; e un passaggio all’indietro (noto anche come backpropagation), in cui viene calcolato il gradiente della funzione di errore rispetto a tutti i parametri della rete.
Dopo diverse iterazioni, il sistema si aggiorna sulla base di questi due calcoli per fornire valori sempre più precisi. Il problema? Oltre ad essere molto dispendioso in termini di energia, il backpropagation non è adatto ai sistemi fisici. L’addestramento di sistemi fisici richiede generalmente un gemello digitale per la fase di backpropagation, che è inefficiente e comporta il rischio di una mancata corrispondenza tra realtà e simulazione.
L’idea degli scienziati è stata quella di sostituire la fase di back-propagation con un secondo passaggio in avanti attraverso il sistema fisico per aggiornare localmente ogni strato della rete. Oltre a ridurre il consumo energetico e a eliminare la necessità di un gemello digitale, questo metodo riflette meglio l’apprendimento umano.
"La struttura delle reti neurali è ispirata al cervello, ma è improbabile che il cervello apprenda attraverso la retropropagazione", spiega Ali Momeni. L’idea è che se addestriamo localmente ogni strato fisico, possiamo usare il nostro sistema fisico reale invece di iniziare creando un modello digitale di esso. Abbiamo quindi sviluppato un approccio biologicamente più plausibile".
Gli scienziati dell’EPFL, in collaborazione con Philipp del Hougne dell’IETR del CNRS e Babak Rahmani di Microsoft Research, hanno utilizzato il loro algoritmo di apprendimento fisico locale (PhyLL) per addestrare sistemi sperimentali acustici e a microonde e un sistema ottico modellato a classificare dati come suoni vocali e immagini. Oltre a mostrare un’accuratezza paragonabile a quella dell’addestramento basato sulla back-propagation, il metodo si è dimostrato affidabile e adattabile, anche in sistemi esposti a perturbazioni esterne imprevedibili, rispetto ai metodi attuali.
Un futuro analogico?
Sebbene l’approccio LWE sia il primo addestramento senza backpropagation di reti neurali fisiche profonde, sono ancora necessari alcuni aggiornamenti numerici dei parametri. "È un approccio di addestramento ibrido, ma il nostro obiettivo è ridurre il più possibile la computazione numerica", spiega Ali Momeni.
Gli scienziati sperano ora di implementare il loro algoritmo su un sistema ottico su piccola scala, per aumentare la scalabilità della rete.
"Nei nostri esperimenti abbiamo usato reti neurali con un massimo di 10 strati, ma funzionerebbe ancora con 100 strati e miliardi di parametri? Questo sarà il prossimo passo. Sarà necessario superare i limiti tecnici dei sistemi fisici", conclude il ricercatore.
Riferimenti
Ali Momeni et al, Backpropagation-free training of deep physical neural networks. Scienza 0, eadi8474 adi8474