I 100 lavori meno popolari in America
Jul 09, 2023I 100 lavori meno popolari in America
Oct 23, 2023Cento milioni di dollari spesi per la mappatura sotterranea prima dei guai dei tunnel, ammette il capo di Snowy Hydro
Aug 10, 2023Cento milioni di dollari spesi per la mappatura sotterranea prima dei guai dei tunnel, ammette il capo di Snowy Hydro
Nov 07, 202310 impetuose cover metal del classico aggro degli anni '80
May 25, 2023Ridimensionamento dell'audio
Immagine precedente Immagine successiva
I ricercatori del MIT, del MIT-IBM Watson AI Lab, dell’IBM Research e di altri centri hanno sviluppato una nuova tecnica per analizzare dati audio e visivi senza etichetta che potrebbe migliorare le prestazioni dei modelli di apprendimento automatico utilizzati in applicazioni come il riconoscimento vocale e il rilevamento di oggetti. Il lavoro, per la prima volta, combina due architetture di apprendimento auto-supervisionato, apprendimento contrastivo e modellazione dei dati mascherati, nel tentativo di scalare le attività di apprendimento automatico come la classificazione degli eventi in dati monomodali e multimodali senza la necessità di annotazioni, replicando così come gli esseri umani comprendono e percepiscono il nostro mondo.
"Una porzione più ampia della conoscenza umana viene appresa in modo auto-supervisionato, perché non sempre riceviamo segnali di supervisione, e vogliamo consentire al modello di apprendimento automatico di avere la stessa capacità", afferma Yuan Gong, un postdoc del MIT nel Laboratorio di Informatica e Intelligenza Artificiale (CSAIL).
"Quindi, un altro modo per dirlo è che l'apprendimento auto-supervisionato spesso costituisce il fondamento di un modello iniziale, perché può apprendere su grandi quantità di dati non etichettati. E poi puoi usare l'apprendimento classico, supervisionato o l'apprendimento per rinforzo per mettere a punto il modello a qualcosa di particolare, se lo si desidera", afferma Jim Glass, ricercatore senior del MIT e membro del MIT-IBM Watson AI Lab.
La tecnica, chiamata autoencoder mascherato audiovisivo contrastivo (CAV-MAE), è un tipo di rete neurale che può imparare a estrarre e mappare rappresentazioni latenti significative nello spazio ad alta dimensione da dati acustici e visivi mediante l'addestramento su grandi set di dati YouTube di clip audio e video da 10 secondi. I ricercatori affermano che la tecnica è più efficace degli approcci precedenti perché modella esplicitamente le relazioni tra dati audio e visivi in un modo che altri metodi non fanno.
Insieme a Gong e Glass nello studio ci sono gli studenti laureati Andrew Rouditchenko e Alexander H. Liu del MIT, David Harwath PhD '18 dell'Università del Texas ad Austin e i membri del MIT-IBM Watson AI Lab Leonid Karlinsky e Hilde Kuehne. Kuehne è anche affiliato all'Università Goethe di Francoforte. Il metodo è stato recentemente presentato alla Conferenza Internazionale sulle Rappresentazioni dell'Apprendimento.
Un approccio congiunto e coordinato
Il CAV-MAE funziona "apprendendo attraverso la previsione" e "apprendendo attraverso il confronto", afferma Gong. La modellazione dei dati mascherati, o metodo di previsione, prende un video insieme alla sua forma d'onda audio coordinata, converte l'audio in uno spettrogramma e maschera il 75% di entrambi. I dati non mascherati vengono tokenizzati, quindi inseriti in codificatori audio e video separati prima di entrare in un codificatore/decodificatore congiunto, dove al modello viene chiesto di recuperare i dati mancanti. La differenza (perdita nella ricostruzione) tra la previsione ricostruita risultante e la combinazione audio-visiva originale viene quindi utilizzata per addestrare il modello per ottenere prestazioni migliori. Un esempio potrebbe essere quello di coprire parte del video di un pianoforte e parte di uno spettrogramma di musica per pianoforte, e poi chiedere al modello di provare a determinare gli input mascherati. Sfortunatamente, questo metodo potrebbe non catturare l'associazione tra la coppia video e audio, mentre l'apprendimento contrastivo lo sfrutta, ma potrebbe scartare alcune informazioni uniche della modalità, come lo sfondo in un video.
L’apprendimento contrastivo mira a mappare rappresentazioni simili vicine tra loro. Ad esempio, il modello tenterà di posizionare diversi dati video e audio di diversi pappagalli uno vicino all'altro e più lontano dalle coppie di video e audio di chitarre che suonano. In modo simile alla codifica automatica mascherata, le coppie audiovisive vengono passate a codificatori di modalità separati; tuttavia, i componenti audio e video vengono mantenuti separati all'interno del codificatore congiunto prima che il modello esegua il raggruppamento e la perdita di contrasto. In questo modo, l’apprendimento contrastivo cerca di identificare le parti di ciascun audio o video che sono più rilevanti per l’altro. Ad esempio, se un video mostra qualcuno che parla e la clip audio corrispondente contiene del parlato, l'autocodificatore imparerà ad associare i movimenti della bocca di chi parla alle parole pronunciate. Quindi regolerà i parametri del modello in modo che tali input siano rappresentati uno vicino all'altro. In definitiva, il metodo CAV-MAE combina entrambe le tecniche con più flussi di dati in avanti con mascheramento come primo passaggio, codificatori specifici della modalità e normalizzazione dei livelli in modo che i punti di forza della rappresentazione siano simili.