Poiché l’intelligenza artificiale (AI) trasforma i settori industriali, dalla sanità alla finanza, non è mai stato così importante capire come questi cervelli digitali imparano. Due ricercatori dell’EPFL, Antonio Sclocchi e Matthieu Wyart, hanno ora chiarito questo processo studiando un metodo molto diffuso noto come discesa stocastica del gradiente (SGD).
Il cuore del processo di apprendimento delle IA è costituito dagli algoritmi di apprendimento. Si tratta di insiemi di regole che consentono alle IA di migliorare sulla base dei dati che ricevono. L’SGD è uno di questi algoritmi. Aiuta le IA a evolversi in un ambiente complesso di informazioni per trovare gradualmente le migliori soluzioni possibili.
Ma non tutti i percorsi di apprendimento sono uguali. Lo studio dell’EPFL rivela come diversi parametri del DMS possano influenzare in modo significativo l’efficienza e la qualità dell’apprendimento dell’intelligenza artificiale. In particolare, i ricercatori hanno studiato in che misura la modifica di due variabili essenziali porta a risultati di apprendimento molto diversi.
Queste due variabili sono la dimensione dei campioni di dati da cui l’intelligenza artificiale apprende in una sola volta (nota come "dimensione del lotto") e l’entità dei suoi passi di apprendimento (nota come "tasso di apprendimento"). I ricercatori hanno identificato tre scenari distinti ("regimi"), ciascuno con caratteristiche uniche che influenzano in modo diverso il processo di apprendimento dell’IA.
Nel primo scenario, simile alla scoperta di una nuova città senza una mappa, l’IA compie piccoli passi casuali, utilizzando piccoli lotti e alti tassi di apprendimento, che le consentono di trovare soluzioni che altrimenti non avrebbe ottenuto. Questo approccio è vantaggioso per esplorare un vasto insieme di possibilità, ma può essere caotico e imprevedibile.
Il secondo scenario prevede che l’IA compia un primo grande passo sulla base della sua prima impressione, utilizzando lotti più grandi e tassi di apprendimento più elevati, seguiti da passi esplorativi più piccoli. Questo regime può accelerare il processo di apprendimento, ma rischia di perdere soluzioni migliori che un approccio più cauto avrebbe portato alla luce.
Il terzo scenario prevede l’utilizzo di una mappa dettagliata per navigare direttamente verso destinazioni note. In questo caso, l’intelligenza artificiale utilizza grandi lotti e tassi di apprendimento più bassi, rendendo il suo processo di apprendimento più prevedibile e meno incline all’esplorazione casuale. Questo approccio è efficace, ma non può sempre portare alle soluzioni più ottimali.
Lo studio fornisce una migliore comprensione dei compromessi coinvolti nell’addestramento dei modelli di intelligenza artificiale. Evidenzia inoltre l’importanza di adattare il processo di formazione alle esigenze specifiche di ciascuna applicazione. Ad esempio, la diagnosi medica potrebbe trarre vantaggio da un approccio più esplorativo quando la precisione è essenziale, mentre il riconoscimento vocale potrebbe favorire percorsi di apprendimento più diretti in termini di velocità ed efficienza.