Reconocimiento de emociones vocales con la versión ajustada de Wav2vec 2.0/HuBERT

27/02/2024

Yingzhi Wang, ingeniero de aprendizaje profundo en Zaion, colaborador de speechbrain, ingeniero de Central-Supélec.

Me apasiona la tecnología del habla, por eso me encanta charlar.

Los modelos de habla autosupervisados, como wav2vec 2.0 y HuBERT, están suponiendo avances revolucionarios en el reconocimiento automático del habla (ASR). Sin embargo, no está totalmente demostrado que ofrezcan un mejor rendimiento en el reconocimiento de emociones.

En Zaion Lab trabajamos sin descanso para mejorar nuestro motor de reconocimiento de emociones, con la idea de explorar wav2vec 2.0 y HuBERT.

Para nuestro proyecto, adaptamos wav2vec 2.0 y HuBERT al reconocimiento de emociones ajustando sus modelos preentrenados. Los resultados fueron excelentes. En el conjunto de datos de reconocimiento público de emociones de IEMOCAP, hemos obtenido los mejores resultados con una precisión ponderada (Weighted Accuracy, WA) del 79,58%.

Veamos cómo lo hemos hecho.

Breve introducción a Wav2vec 2.0/HuBERT

Wav2Vec 2.0 (Facebook 2020) y HuBERT (Facebook 2021) son dos de los modelos autosupervisados de mejor rendimiento y más representativos utilizados en tareas del habla, especialmente paraASR. Empecemos con una breve introducción al aprendizaje autosupervisado. Citando a Yann LeCun, quien propuso por primera vez este enfoque en 2019: "En el aprendizaje autosupervisado, el sistema aprende a predecir parte de su entrada gracias a otras partes de su entrada. Al construir tareas complementarias para explorar información supervisada a partir de datos no supervisados, el aprendizaje autosupervisado entrena redes neuronales a través de estas tareas construidas para aprender representaciones valiosas para tareas posteriores. Por ejemplo, en wav2vec 2.0, ciertas partes del audio se enmascaran aleatoriamente, y el modelo se entrena para predecir correctamente estas partes enmascaradas del audio. De este modo, el modelo aprende a representar el audio sin datos etiquetados.

Hubert comparte la misma idea que wav2vec 2.0, pero aplica una tarea de clasificación, obligando al modelo a clasificar secuencias ocultas en categorías predefinidas. Para generar las etiquetas de la primera iteración, se aplica la agrupación k-means a las características MFCC de 39 dimensiones. Con el fin de generar etiquetas más precisas para iteraciones posteriores, la agrupación de k-means trabaja sobre las representaciones extraídas del modelo HuBERT preentrenado en la iteración anterior.

Para más detalles sobre wav2vec 2.0 y HuBERT, consulte :

(wav2vec2) https://arxiv.org/abs/2006.11477

(HuBERT) https://arxiv.org/abs/2106.07447

En nuestro trabajo, comparamos cuatro modelos Meta AI wav2vec 2.0 preentrenados: el modelo base wav2vec 2.0 (12 bloques de transformación y 768 dimensiones de incrustación) y su versión ajustada a ASR, el modelo amplio wav2vec 2.0 (24 bloques de transformación y 1024 dimensiones de incrustación) y su versión ajustada a ASR. Los modelos básico y amplio se preentrenaron con datos de LibriSpeech 960h, que también se utilizaron para su ajuste ASR.

¿Por qué interesa el reconocimiento vocal de las emociones?

El reconocimiento de las emociones ha suscitado grandes expectativas en el ámbito de las relaciones con los clientes; la detección satisfactoria del estado emocional humano es una baza importante para las soluciones de Zaion.

El habla es el principal medio de comunicación en la vida cotidiana, ya que no sólo transmite pensamientos, sino que también expresa el estado emocional del hablante. El objetivo del reconocimiento de emociones en el habla es identificar estados emocionales humanos a partir del habla, una tarea que se realiza a nivel de enunciado: la entrada es una frase de audio y la salida, una clase emocional como neutro, enfadado, etc. El principal reto de la detección de emociones en el habla es extraer características emocionales potentes, como características manuales como MFCC, espectrogramas, prosodias en los últimos años, y características de redes profundas utilizadas habitualmente en investigaciones más recientes.

Exploración de Wav2vec2.0/HuBERT + reconocimiento vocal de emociones

En la prueba comparativa SUPERB (NTU, MIT, Facebook AI, JHU, Amazon AI, CMU), wav2vec 2.0 y HuBERT se utilizan como extractores de características fijos, y durante este proceso no se modifica ningún parámetro de los modelos preentrenados wav2vec 2.0 y HuBERT. A continuación, las características extraídas se utilizan para una clasificación de 4 clases (neutro, enfadado, triste, feliz). El modelo con mejores resultados (HuBERT grande) obtuvo una WA (Weighted Accuracy) del 67,62% en IEMOCAP.

Sin embargo, en nuestra investigación, exploramos el ajuste fino parcial y el ajuste fino completo de wav2vec 2.0 y HuBERT, adaptando sus parámetros a la tarea de reconocimiento de emociones durante el proceso de entrenamiento.

A continuación se describen los dos métodos de ajuste:

Como se muestra en la ilustración de la izquierda para el ajuste fino parcial, el modelo wav2vec 2.0/HuBERT se divide en dos partes: un codificador de características basado en CNN y un codificador contextualizado basado en transformaciones. Bloqueamos el codificador de rasgos basado en CNN, ajustando todos los parámetros de estos bloques CNN, y sólo afinamos los parámetros de los bloques de transformación. El afinamiento parcial puede verse como un entrenamiento de adaptación de dominio para el nivel superior, diseñado para evitar interferencias y daños en las capas CNN inferiores, que ya tienen capacidad de expresión.

En el caso del ajuste fino completo, que se muestra a la derecha, los módulos CNN y transformador se ajustan todos durante el proceso de entrenamiento descendente. Al impulsar características generales en el nivel inferior, el ajuste fino completo permite que las expresiones de nivel superior sean más completas y específicas.

Para la estructura descendente, se añaden una capa de agrupación de promedios y una capa lineal como clasificador descendente simple. La agrupación de medias comprime las distintas longitudes en una sola y, a continuación, la capa lineal realiza la clasificación a nivel de frase minimizando la pérdida de entropía cruzada.

Conjunto de datos

El conjunto de datos elegido para nuestros experimentos es IEMOCAP, uno de los más utilizados y representativos para el reconocimiento de las emociones del habla.

El conjunto de datos IEMOCAP (Interactive Emotional Dyadic Motion Capture) contiene unas 12 horas de datos y consiste en diálogos guionizados e improvisados de 10 hablantes. Como suele ocurrir en la investigación sobre el reconocimiento del habla de las emociones, en nuestro trabajo también utilizamos 4 clases de emociones:

  • rabia,
  • felicidad
  • tristeza
  • neutro

La métrica de evaluación utilizada es la precisión ponderada (WA) y los resultados se promedian sobre 5 semillas diferentes.

Y... Lo último en reconocimiento de emociones a través del habla

Antes de examinar los resultados, renombramos los modelos que estamos comparando utilizando el siguiente método:

EF/PF/Congelado : Totalmente refinado/Parcialmente refinado/No refinado

w2v/hbt: modelo basado en wav2vec 2.0/HuBERT

base/large: modelo preentrenado base/large

-/960h: con/sin ajuste fino ASR utilizando datos LibriSpeech 960h

Comparamos nuestros resultados con el estado actual de la técnica Attention Pooling, que proporciona un resultado comparable y competitivo utilizando sólo el habla.

Nos sorprendió comprobar que todos nuestros modelos ajustados funcionaban satisfactoriamente, como muestra la tabla siguiente, en la que el modelo HuBERT wide parcialmente ajustado alcanza el mejor WA, un 79,58%, lo que supone una mejora del 7,83% respecto al estado del arte y supera con creces a los modelos fijos del banco de pruebas SUPERB. Además, observamos que el ajuste fino parcial parece ser un método de ajuste fino más eficiente que el ajuste fino completo. Consideramos que IEMOCAP es un conjunto de datos pequeño con sólo 12 horas de datos, por lo que demasiados parámetros de entrenamiento pueden provocar fácilmente un aprendizaje excesivo. Además, observamos que el ajuste fino de los ASR no facilita la tarea de SER posterior, lo que indica una pérdida de información prosódica durante el ajuste fino de los ASR.

Próximo episodio

En este blog, presentaremos el rendimiento de los modelos autosupervisados adaptándolos al reconocimiento de emociones en el habla. En futuros blogs, demostraremos que los modelos autosupervisados también pueden adaptarse a tareas de reconocimiento de hablantes y comprensión del lenguaje hablado con un rendimiento de vanguardia.

El artículo se presentó a Interspeech 2022. Una versión ARXIV se puede encontrar aquí. Nuestro artículo ha sido citado 10 veces hasta ahora y los resultados han sido utilizados como modelo base por otros investigadores.

Noticias Zaion

Manténgase al día de las últimas noticias, tendencias y análisis
en el campo de las relaciones con los clientes aumentadas por la IA conversacional, generativa y de voz.

Descubra las soluciones Zaion

* son necesarios