Alla ricerca della macchina intelligente

- EN- DE- FR- IT
Elvis Nava è borsista presso l’AI Center del Politecnico di Zurigo e dotto
Elvis Nava è borsista presso l’AI Center del Politecnico di Zurigo e dottorando presso la cattedra di Neuroinformatica e il Soft Robotics Lab.

Elvis Nava insegna ai robot a eseguire comandi verbali o scritti. Li invia a un campo di addestramento dove imparano a combinare immagini, testi e dati di movimento.

Combinazione di stimoli sensoriali

Ma come si fa a insegnare a una macchina a eseguire i comandi? Come si presenta questa combinazione di intelligenza artificiale e robotica? Per farlo, bisogna capire come funziona il cervello umano:

Percepiamo il nostro ambiente combinando diversi stimoli sensoriali. Di solito il nostro cervello integra senza sforzo immagini, suoni, odori, sapori e stimoli aptici in un quadro complessivo coerente. Questa capacità consente agli esseri umani di adattarsi rapidamente a nuove situazioni. Riconosciamo intuitivamente come applicare ciò che abbiamo imparato per padroneggiare compiti sconosciuti.

"I computer e i robot spesso non hanno ancora questa capacità", spiega Nava, che è arrivato al Politecnico di Zurigo per un Master in Data Science dopo aver studiato a Milano. Grazie all’apprendimento automatico, oggi i programmi informatici sono in grado di scrivere testi, conversare e disegnare immagini, e i robot si muovono rapidamente e autonomamente anche su terreni difficili. Ma gli algoritmi di apprendimento che ne sono alla base si basano solitamente su una sola fonte di dati. Per usare un gergo informatico, non sono multimodali.

Per Nava, questo è proprio un ostacolo cruciale sulla strada verso robot più intelligenti: "Gli algoritmi sono spesso addestrati per una sola area di attività utilizzando grandi set di dati online: i modelli di elaborazione vocale possono usare la parola -gatto- in modo grammaticalmente corretto, ma non sanno che aspetto abbia un gatto. I robot possono navigare efficacemente su terreni difficili, ma di solito non hanno la capacità di riconoscere il linguaggio e le immagini".

Irobot devono andare all’asilo

Elvis Nava sta quindi sviluppando algoritmi di apprendimento per robot che dovrebbero essere in grado di fare proprio questo: Collegare informazioni provenienti da fonti diverse. "Quando dico al braccio robotico - passami la mela sul tavolo -, deve collegare la parola mela con le proprietà visive di una mela. Deve anche riconoscere la mela sul tavolo e sapere come prenderla".

Ma come fa il ricercatore a insegnare al braccio robotico tutto questo? In termini un po’ semplificati, Nava lo invia a un campo di addestramento in due fasi. In una sorta di scuola materna, il robot impara innanzitutto le abilità generali, come il riconoscimento del linguaggio e delle immagini e i semplici movimenti della mano.

Esistono già modelli pubblicamente disponibili per queste abilità, addestrati utilizzando enormi serie di dati di testo, immagini o video. Ad esempio, i ricercatori alimentano un algoritmo di riconoscimento delle immagini con migliaia di immagini etichettate come "cane" o "gatto". L’algoritmo impara quindi da solo quali proprietà - in questo caso le strutture dei pixel - compongono le immagini di cani o gatti.

Un nuovo algoritmo di apprendimento per i robot

Il compito di Nava è ora quello di combinare i migliori modelli disponibili in un nuovo algoritmo di apprendimento. Questo deve tradurre dati diversi come immagini, testi o informazioni spaziali in un linguaggio di comando uniforme per il braccio robotico. "La parola -birra- e le immagini con l’etichetta -birra- sono rappresentate nel modello dallo stesso vettore", spiega il ricercatore. In questo modo, il robot sa cosa prendere quando gli viene affidato il compito "Versami una birra".

I ricercatori che lavorano più intensamente sull’intelligenza artificiale sanno da tempo che sarebbe promettente integrare diverse fonti di dati e modelli. Tuttavia, i modelli corrispondenti sono diventati disponibili e accessibili al pubblico solo di recente. Inoltre, oggi la potenza di calcolo è sufficiente per farli lavorare insieme.

Quando Nava parla di queste cose, sembrano semplici e intuitive. Ma questo è ingannevole: "Non basta conoscere bene gli ultimi modelli. A volte è più un’arte che una scienza farli lavorare insieme", dice. Sono problemi difficili come questi che entusiasmano particolarmente Nava. Può lavorarci per ore e provare sempre nuove soluzioni.

Addestramento speciale: imitare gli esseri umani

Una volta che il braccio robotico ha superato la fase prescolare e ha imparato a capire il linguaggio, a riconoscere le immagini e a eseguire semplici movimenti, Nava lo invia a un addestramento speciale. Qui, ad esempio, la macchina impara a imitare i movimenti di una mano umana quando versa una birra. "Poiché abbiamo a che fare con sequenze di movimento molto specifiche, non è più sufficiente ricorrere a modelli già esistenti", spiega Nava.

Pertanto, mostra al suo algoritmo di apprendimento il filmato di una mano che versa una birra. Sulla base di alcuni esempi, il robot cerca di imitare questo movimento. In questo modo, si basa su tutti i movimenti che ha già appreso in età prescolare. Se il braccio robotico non avesse alcuna conoscenza preliminare, non sarebbe in grado di imitare una sequenza di movimenti così complessa.

Se il robot versa la birra senza versare nulla, diciamo all’algoritmo di apprendimento "ben fatto" e il robot memorizza questa sequenza di movimenti", spiega Nava. Questa procedura è chiamata in gergo tecnico apprendimento per rinforzo.

Fondamenti per gli aiutanti robotici

Con questa strategia di apprendimento in due fasi, Nava vuole avvicinarsi di un piccolo passo al sogno di una macchina intelligente. Quanto questo lo porterà lontano, lui stesso non lo sa ancora con precisione. "Non è chiaro se con questo approccio i robot possano svolgere anche compiti che non abbiamo mostrato loro in precedenza".

È molto più probabile, tuttavia, che gli aiutanti robotici eseguano comandi verbali e svolgano compiti che già conoscono o che sono molto simili a questi. Nava non si azzarda a rispondere quanto tempo ci vorrà prima che tali applicazioni vengano utilizzate nell’assistenza, nell’edilizia o in altri settori.

Gli sviluppi nel campo dell’intelligenza artificiale sono troppo rapidi e imprevedibili. Lui stesso sarebbe felice se la mano robotica gli porgesse davvero la birra dopo la difesa della sua tesi, se glielo chiedesse gentilmente.

Christoph Elhardt