¿Qué datos pueden utilizarse para entrenar sistemas de generación de diálogos socioemocionales?

27/02/2024

Lorraine Vanel
Doctorante à Zaion et Télécom-Paris sur le thème de la génération d’énoncés en langue naturelle pour des agents socialement compétents.
Je fais également office de responsable culinaire et de traiteur à temps partiel au Zaion Lab – quelqu’un doit garder ces cerveaux en éveil.

Introducción

El éxito de las tecnologías de aprendizaje profundo, apoyado por la creciente accesibilidad a cuerpos de datos cada vez mayores, ha contribuido al desarrollo de sistemas de generación de diálogos cada vez más avanzados. En Zaion, nuestro objetivo es investigar estos modelos más desarrollados para su posterior aplicación al servicio de atención al cliente.

Además de las cuestiones gramaticales y la fluidez de los contenidos generados, la interacción persona-ordenador se enfrenta a un reto principal para el agente conversacional: la coherencia. Esto implica varios problemas secundarios, como :

  • Coherencia lógica (pertinencia de la respuesta generada con respecto a la historia de la conversación)
  • Coherencia del personaje (relevancia del comportamiento del bot con respecto a su comportamiento anterior en la interacción).
  • Coherencia social (pertinencia de la respuesta a un conjunto de normas sociales y de etiqueta aceptadas).
  • Coherencia emocional (relevancia para el estado emocional del usuario)

La coherencia es importante para evitar situaciones en las que los usuarios encuentren "extraño" al bot. Un agente orientado a tareas suele ser el representante de una entidad que presta un servicio y, como tal, debe ser fiable desde el punto de vista empresarial, pero también ofrecer una interacción social agradable. Aunque existen bots socioemocionales en aplicaciones orientadas a tareas, la mayoría de estos sistemas se utilizan y diseñan para el dominio abierto.

Mientras que el criterio de coherencia lógica puede resolverse gracias a la potencia informática, los otros tres criterios están mucho menos estudiados, a pesar de que numerosos estudios han demostrado hasta qué punto el comportamiento consciente de las emociones es beneficioso para la experiencia global del usuario.

Sin embargo, conceptos complejos como la emoción son difíciles de anotar debido a la subjetividad de la tarea, lo que dificulta la obtención de datos pertinentes y fiables. Esto se está convirtiendo rápidamente en un reto importante en el aprendizaje profundo, donde los datos son el núcleo de los procesos de aprendizaje de los sistemas y donde se requieren enormes cantidades de datos.

En esta serie de dos entradas de blog, presentaré los diferentes métodos utilizados en la bibliografía para diseñar la recogida y anotación de datos socioemocionales:

  1. ¿Cómo se recogen y anotan los datos socioemocionales?
  2. ¿Qué estrategias socioemocionales interesantes se estudiaron?

 

¿Cómo se recogen y anotan los datos socioemocionales?

 

En el aprendizaje profundo, los datos son cruciales, ya que es con ellos con los que los sistemas aprenderán sus representaciones. Por ejemplo, en Zaion, podemos utilizar los datos de nuestros clientes (dentro de los límites de nuestros contratos), y etiquetar los datos a través de nuestro equipo de expertos en anotación para introducirlos en el entrenamiento de nuestros modelos lingüísticos.

En este primer artículo, repasaré distintas formas de recopilar y anotar datos conversacionales que no requieren necesariamente el acceso a dichos recursos profesionales. Estos enfoques se utilizan en la bibliografía sobre sistemas conversacionales socioemocionales, y los conjuntos de datos que mencionaré son, en su mayoría, corpus formados por datos textuales y, en ocasiones, transcritos a partir de fuentes de audio.

Recogida y anotación de datos

Revisaremos tres enfoques principales de recopilación y los métodos de anotación asociados que hemos observado en la bibliografía.

Crowdsourcing

Recogida: El crowdsourcing, aplicado a la recogida de datos, es un método participativo en el que un grupo de personas contribuye a la creación de muestras de datos. Los datos obtenidos mediante crowdsourcing suelen ser interacciones entre humanos (H-H). Suelen implicar a un hablante que transmite una emoción y a un oyente que debe responder adecuadamente. Los sistemas de diálogo se entrenan para actuar como oyentes. Los datos se recogen haciendo que los dos interlocutores (trabajadores de la multitud) interactúen según unas pautas establecidas. En el caso de los diálogos empáticos, se invita a los interlocutores a iniciar la conversación tras un impulso emocional. Los oyentes tienen que adaptar sus respuestas al contexto presentado por su interlocutor sin conocimiento previo del estímulo o la situación. Un ejemplo de conjunto de datos construido de este modo es el conjunto de datos ESConv.

Anotaciones derivadas : En el caso del crowdsourcing, las etiquetas (emociones y estrategias de diálogo) asociadas a los datos se derivan directamente de las instrucciones dadas a los anotadores. Además, las respuestas a las encuestas enviadas a los trabajadores durante el proceso de recopilación pueden recogerse tanto del lado del oyente como del hablante, lo que permite recopilar más datos, como la evaluación de la empatía y las estrategias de diálogo a nivel de enunciado.

Explorado a partir de fuentes en línea

Recopilación: otra forma habitual de recopilar datos es el crawling, es decir, la extracción de información de fuentes en línea. En el caso de los datos textuales, suele tratarse de entradas y comentarios recuperados de redes sociales, que son conversaciones naturales entre humanos. También pueden proceder de otras fuentes (como OpenSubtitles), donde los datos están codificados. Los datos extraídos de estos sitios web no suelen estar etiquetados, por lo que es necesario diseñar procesos de anotación para etiquetar estos corpus.

Anotaciones manuales: cuando los conjuntos de datos son pequeños o si el equipo de investigación dispone de los recursos materiales necesarios, los datos pueden ser anotados en su totalidad por expertos humanos o anotadores que hayan recibido formación para esta tarea específica de anotación. DailyDialog fue anotado por 3 expertos con un buen conocimiento de la teoría del diálogo y la comunicación, que recibieron formación sobre las directrices de la tarea (anotación de actos de diálogo y emoción).

Anotación semiautomática: la anotación manual suele combinarse con algoritmos para acelerar el trabajo y aligerar la carga de trabajo de los jueces humanos. Este enfoque híbrido se conoce como anotación semiautomática. En general, el primer paso consiste en que los jueces humanos anoten una pequeña fracción de los diálogos recopilados. Para proporcionar apoyo adicional a los jueces humanos, el equipo de investigación que desarrolló el conjunto de datos EDOS utilizó un modelo basado en la tecnología BERT, entrenado en otro conjunto de datos (diálogos empáticos), que proporciona las tres etiquetas emocionales más probables para cada conversación. De este modo se evita que los jueces humanos seleccionen una de las 42 etiquetas disponibles, sino que seleccionan entre 3 etiquetas, con la opción de seleccionar una de las otras si es necesario. La segunda y última parte del proceso consiste en utilizar estos datos anotados manualmente para entrenar un clasificador que anotará automáticamente el resto de los datos recogidos.

Anotaciones derivadas: También podemos utilizar el contexto en el que se publicaron los datos de la web. Por ejemplo, para el conjunto de datos PEC, las entradas y los comentarios se extrajeron de dos subreddits: happy y offmychest. Por tanto, el entorno original de reddit proporciona una etiqueta y lo único que queda es realizar un control de calidad pidiendo a anotadores humanos que anoten un pequeño conjunto de conversaciones (en el caso de PEC, 100 del reddit happy, 100 del reddit offmychest y 100 de otro reddit, casualconversations, para control).

Recuperado de los servicios desplegados

Recopilación: cuando ya se han implantado servicios como la atención al cliente, los chatbots y otros, los registros pueden recopilarse y compilarse en un corpus. En la mayoría de los casos, se trata de interacciones hombre-máquina, pero también pueden utilizarse para conversaciones entre humanos (como los datos de los centros de llamadas).

Anotación manual / semiautomática: este tipo de datos puede utilizar los mismos métodos de anotación que los datos de exploración: anotación humana posiblemente asistida por enfoques de IA como los descritos anteriormente. Para su conjunto de datos EmoContext, 50 anotadores humanos anotaron manualmente 300 diálogos para cada una de las 4 clases y cada diálogo fue revisado por 7 jueces. Estos diálogos anotados se integraron como vectores y luego se utilizaron con umbrales de similitud coseno para encontrar ocurrencias similares en el conjunto de datos sin anotar. A continuación, jueces humanos comprobaron los resultados y tomaron la decisión final.

Opiniones de los usuarios: algunos bots en producción pueden pedir opiniones sobre la satisfacción de los clientes, ya sea directamente o a través de encuestas. Esta información puede utilizarse para anotar determinadas conversaciones.

Debate

En el ámbito de los sistemas orientados a tareas, nos enfrentamos a la cuestión del tipo de datos. Los corpus públicos suelen recopilar conversaciones de dominio público con diferentes estrategias, formulaciones y objetivos. Para que un modelo funcione bien, los datos de entrenamiento (así como el tipo de etiquetas) deben parecerse a los datos en tiempo real a los que se enfrentará el sistema cuando se despliegue con usuarios reales. El reto para mejorar el rendimiento es, por tanto, crear datos lo más parecidos posible al contexto de la conversación dentro de un marco orientado a las tareas.

 

El crowdsourcing tiene sus ventajas a la hora de recopilar datos. Permite un control preciso del contenido de los diálogos, la recogida de muestras numerosas y diversas que responden a cuestiones específicas definidas por el equipo de investigación, y una etiqueta dada directamente por la fuente de los datos (el hablante). Sin embargo, la naturaleza guionizada de la interacción induce un sesgo significativo en el corpus, ya que difiere de la forma en que una persona podría expresar espontáneamente sus sentimientos en una situación similar. Los datos de dominio abierto recogidos de redes sociales u otras fuentes en línea constituyen otro problema, ya que no están estructurados de la misma manera que los diálogos orientados a tareas. En última instancia, para los proveedores de servicios que ya tienen agentes conversacionales desplegados en producción, la solución óptima es recuperar y utilizar los registros de conversaciones. Los datos obtenidos de los agentes conversacionales desplegados son una interacción entre humanos y ordenadores, y aunque la aceptabilidad de estos bots puede influir en la conversación (y en cómo se expresa el usuario), la interacción sigue siendo espontánea y auténtica. Sin embargo, los sesgos intrínsecos al comportamiento y desarrollo de la máquina se conservarán en el corpus. No obstante, este corpus ofrece el mejor compromiso entre, por un lado, las expresiones orientadas a la tarea que corresponden al uso previsto del bot y, por otro, la naturaleza espontánea de las conversaciones y las reacciones auténticas, aunque puedan estar influidas por la aceptabilidad de la tecnología y la IA en la atención al cliente.

 

Una vez recogidos los datos, creemos que un paso muy importante debe preceder a la fase de anotación: el diseño de un proceso de etiquetado, basado en el estudio de modelos y datos reales o esperados, que permita establecer qué hay que anotar y qué características hay que enseñar al agente virtual. Una vez definido claramente este proceso, la anotación semiautomática ofrece una buena relación calidad-precio, al tiempo que garantiza la coherencia con el control de calidad por parte de anotadores humanos. Si la cantidad de datos lo permite, la anotación manual también garantiza una muy buena calidad y control de las etiquetas resultantes. Hay que tener en cuenta que la naturaleza subjetiva de la anotación del estado emocional la convierte en una tarea compleja, incluso para los humanos. Dos personas pueden no coincidir en una emoción expresada en la misma muestra, debido a los sesgos personales e internos que empañan nuestra percepción de los estados emocionales de los demás.

 

Aunque el mayor uso de estos modelos end-to-end es la interacción directa con el usuario, como los chatbots, han surgido otras aplicaciones, sobre todo en el campo de la experiencia del cliente. Un ejemplo es la generación automática de respuestas a agentes humanos para ayudarles en sus tareas en tiempo real, como propone Zaion con Smart Coaching, cuyo objetivo es generar una respuesta sugerida en tiempo real a los agentes humanos. Estos nuevos servicios abren nuevos horizontes interesantes en este campo, como el etiquetado de los datos (si el agente humano opta por utilizar la respuesta del robot, se etiquetaría automáticamente como pertinente) o el resultado deseado de la generación (como la sugerencia de las n mejores respuestas, siendo n generalmente entre 3 y 4).

En pocas palabras

Existen varios métodos de recogida de datos socioemocionales, con sus correspondientes esquemas de anotación:

  • Crowdsourcing (con encuestas o incentivos emocionales)
  • Rastreo en línea (anotación humana que puede ser asistida por algoritmos)
  • Interacción persona-ordenador (anotación manual/semiautomática o respuesta del usuario)

Es importante reflexionar sobre el proceso de recogida y anotación para reunir el tipo de datos que mejor se adapte a la tarea en cuestión. Cada método tiene sus ventajas e inconvenientes, y la clave está en encontrar el mejor compromiso para una situación determinada.

"En la segunda parte de este blog, definiré las diferentes estrategias socioemocionales estudiadas en la literatura, así como por qué y cómo son relevantes para mejorar la eficacia del sistema conversacional orientado a tareas. Hasta pronto!"

Noticias Zaion

Manténgase al día de las últimas noticias, tendencias y análisis
en el campo de las relaciones con los clientes aumentadas por la IA conversacional, generativa y de voz.

Descubra las soluciones Zaion

* son necesarios