banner
Casa / Notizia / Un lontano
Notizia

Un lontano

Jan 18, 2024Jan 18, 2024

Le immagini per il download sul sito web dell'ufficio notizie del MIT sono rese disponibili a entità non commerciali, stampa e pubblico in generale sotto una licenza Creative Commons Attribution Non-Commercial No Derivatives. Non è possibile modificare le immagini fornite, se non ritagliandole a misura. Per la riproduzione delle immagini è necessario utilizzare una linea di credito; se non ne viene fornito uno di seguito, accreditare le immagini a "MIT".

Immagine precedente Immagine successiva

Immaginate due squadre che si affrontano su un campo di calcio. I giocatori possono cooperare per raggiungere un obiettivo e competere contro altri giocatori con interessi contrastanti. È così che funziona il gioco.

La creazione di agenti di intelligenza artificiale che possano imparare a competere e cooperare con la stessa efficacia degli esseri umani rimane un problema spinoso. Una sfida chiave è consentire agli agenti di intelligenza artificiale di anticipare i comportamenti futuri di altri agenti mentre apprendono tutti contemporaneamente.

A causa della complessità di questo problema, gli approcci attuali tendono ad essere miopi; gli agenti possono solo indovinare le prossime mosse dei loro compagni di squadra o concorrenti, il che a lungo termine porta a scarse prestazioni.

I ricercatori del MIT, del MIT-IBM Watson AI Lab e di altri centri hanno sviluppato un nuovo approccio che offre agli agenti di intelligenza artificiale una prospettiva lungimirante. La loro struttura di apprendimento automatico consente agli agenti di intelligenza artificiale cooperativi o competitivi di considerare cosa faranno gli altri agenti quando il tempo si avvicina all’infinito, non solo nei pochi passaggi successivi. Gli agenti adattano quindi i loro comportamenti di conseguenza per influenzare i comportamenti futuri di altri agenti e arrivare a una soluzione ottimale a lungo termine.

Questo quadro potrebbe essere utilizzato da un gruppo di droni autonomi che lavorano insieme per ritrovare un escursionista smarrito in una fitta foresta, o da auto a guida autonoma che si sforzano di mantenere i passeggeri al sicuro anticipando i movimenti futuri di altri veicoli che percorrono un’autostrada trafficata.

"Quando gli agenti dell'intelligenza artificiale cooperano o competono, ciò che conta di più è quando i loro comportamenti convergono in un determinato momento nel futuro. Ci sono molti comportamenti transitori lungo il percorso che non contano molto a lungo termine. Raggiungere questo comportamento convergente è ciò che ci interessa veramente, e ora disponiamo di un metodo matematico per consentirlo", afferma Dong-Ki Kim, uno studente laureato presso il MIT Laboratory for Information and Decision Systems (LIDS) e autore principale di un articolo che descrive questo quadro.

L'autore senior è Jonathan P. How, professore di aeronautica e astronautica Richard C. Maclaurin e membro del Watson AI Lab del MIT-IBM. Tra i coautori figurano altri del MIT-IBM Watson AI Lab, IBM Research, Mila-Quebec Artificial Intelligence Institute e Oxford University. La ricerca sarà presentata alla Conferenza sui sistemi di elaborazione delle informazioni neurali.

Più agenti, più problemi

I ricercatori si sono concentrati su un problema noto come apprendimento per rinforzo multiagente. L'apprendimento per rinforzo è una forma di apprendimento automatico in cui un agente AI impara per tentativi ed errori. I ricercatori danno all'agente una ricompensa per comportamenti "buoni" che lo aiutano a raggiungere un obiettivo. L'agente adatta il suo comportamento per massimizzare quella ricompensa finché non diventa un esperto in un compito.

Ma quando molti agenti cooperativi o concorrenti apprendono simultaneamente, le cose diventano sempre più complesse. Man mano che gli agenti considerano i passi futuri dei loro colleghi e il modo in cui il loro comportamento influenza gli altri, il problema richiede presto troppa potenza computazionale per essere risolto in modo efficiente. Questo è il motivo per cui altri approcci si concentrano solo sul breve termine.

"Le IA vogliono davvero pensare alla fine del gioco, ma non sanno quando finirà. Devono pensare a come continuare ad adattare il loro comportamento all'infinito in modo da poter vincere in un momento lontano nel futuro Il nostro articolo propone essenzialmente un nuovo obiettivo che consenta a un'intelligenza artificiale di pensare all'infinito", afferma Kim.

Ma poiché è impossibile inserire l’infinito in un algoritmo, i ricercatori hanno progettato il loro sistema in modo che gli agenti si concentrino su un punto futuro in cui il loro comportamento convergerà con quello di altri agenti, noto come equilibrio. Un punto di equilibrio determina le prestazioni a lungo termine degli agenti e in uno scenario multiagente possono esistere equilibri multipli. Pertanto, un agente efficace influenza attivamente i comportamenti futuri di altri agenti in modo tale che questi raggiungano un equilibrio desiderabile dal punto di vista dell'agente. Se tutti gli agenti si influenzano a vicenda, convergono verso un concetto generale che i ricercatori chiamano “equilibrio attivo”.