banner
Casa / Notizia / Ridimensionamento dell'audio
Notizia

Ridimensionamento dell'audio

Nov 13, 2023Nov 13, 2023

Immagine precedente Immagine successiva

I ricercatori del MIT, del MIT-IBM Watson AI Lab, dell’IBM Research e di altri centri hanno sviluppato una nuova tecnica per analizzare dati audio e visivi senza etichetta che potrebbe migliorare le prestazioni dei modelli di apprendimento automatico utilizzati in applicazioni come il riconoscimento vocale e il rilevamento di oggetti. Il lavoro, per la prima volta, combina due architetture di apprendimento auto-supervisionato, apprendimento contrastivo e modellazione dei dati mascherati, nel tentativo di scalare le attività di apprendimento automatico come la classificazione degli eventi in dati monomodali e multimodali senza la necessità di annotazioni, replicando così come gli esseri umani comprendono e percepiscono il nostro mondo.

"Una porzione più ampia della conoscenza umana viene appresa in modo auto-supervisionato, perché non sempre riceviamo segnali di supervisione, e vogliamo consentire al modello di apprendimento automatico di avere la stessa capacità", afferma Yuan Gong, un postdoc del MIT nel Laboratorio di Informatica e Intelligenza Artificiale (CSAIL).

"Quindi, un altro modo per dirlo è che l'apprendimento auto-supervisionato spesso costituisce il fondamento di un modello iniziale, perché può apprendere su grandi quantità di dati non etichettati. E poi puoi usare l'apprendimento classico, supervisionato o l'apprendimento per rinforzo per mettere a punto il modello a qualcosa di particolare, se lo si desidera", afferma Jim Glass, ricercatore senior del MIT e membro del MIT-IBM Watson AI Lab.

La tecnica, chiamata autoencoder mascherato audiovisivo contrastivo (CAV-MAE), è un tipo di rete neurale che può imparare a estrarre e mappare rappresentazioni latenti significative nello spazio ad alta dimensione da dati acustici e visivi mediante l'addestramento su grandi set di dati YouTube di clip audio e video da 10 secondi. I ricercatori affermano che la tecnica è più efficace degli approcci precedenti perché modella esplicitamente le relazioni tra dati audio e visivi in ​​un modo che altri metodi non fanno.

Insieme a Gong e Glass nello studio ci sono gli studenti laureati Andrew Rouditchenko e Alexander H. Liu del MIT, David Harwath PhD '18 dell'Università del Texas ad Austin e i membri del MIT-IBM Watson AI Lab Leonid Karlinsky e Hilde Kuehne. Kuehne è anche affiliato all'Università Goethe di Francoforte. Il metodo è stato recentemente presentato alla Conferenza Internazionale sulle Rappresentazioni dell'Apprendimento.

Un approccio congiunto e coordinato

Il CAV-MAE funziona "apprendendo attraverso la previsione" e "apprendendo attraverso il confronto", afferma Gong. La modellazione dei dati mascherati, o metodo di previsione, prende un video insieme alla sua forma d'onda audio coordinata, converte l'audio in uno spettrogramma e maschera il 75% di entrambi. I dati non mascherati vengono tokenizzati, quindi inseriti in codificatori audio e video separati prima di entrare in un codificatore/decodificatore congiunto, dove al modello viene chiesto di recuperare i dati mancanti. La differenza (perdita nella ricostruzione) tra la previsione ricostruita risultante e la combinazione audio-visiva originale viene quindi utilizzata per addestrare il modello per ottenere prestazioni migliori. Un esempio potrebbe essere quello di coprire parte del video di un pianoforte e parte di uno spettrogramma di musica per pianoforte, e poi chiedere al modello di provare a determinare gli input mascherati. Sfortunatamente, questo metodo potrebbe non catturare l'associazione tra la coppia video e audio, mentre l'apprendimento contrastivo lo sfrutta, ma potrebbe scartare alcune informazioni uniche della modalità, come lo sfondo in un video.

L’apprendimento contrastivo mira a mappare rappresentazioni simili vicine tra loro. Ad esempio, il modello tenterà di posizionare diversi dati video e audio di diversi pappagalli uno vicino all'altro e più lontano dalle coppie di video e audio di chitarre che suonano. In modo simile alla codifica automatica mascherata, le coppie audiovisive vengono passate a codificatori di modalità separati; tuttavia, i componenti audio e video vengono mantenuti separati all'interno del codificatore congiunto prima che il modello esegua il raggruppamento e la perdita di contrasto. In questo modo, l’apprendimento contrastivo cerca di identificare le parti di ciascun audio o video che sono più rilevanti per l’altro. Ad esempio, se un video mostra qualcuno che parla e la clip audio corrispondente contiene del parlato, l'autocodificatore imparerà ad associare i movimenti della bocca di chi parla alle parole pronunciate. Quindi regolerà i parametri del modello in modo che tali input siano rappresentati uno vicino all'altro. In definitiva, il metodo CAV-MAE combina entrambe le tecniche con più flussi di dati in avanti con mascheramento come primo passaggio, codificatori specifici della modalità e normalizzazione dei livelli in modo che i punti di forza della rappresentazione siano simili.