¿Qué es el reconocimiento de voz (ASR)?

06/07/2022

Desde Audrey, el primer sistema capaz de reconocer números del 0 al 9, hasta los sofisticadísimos asistentes de voz Alexa de Amazon y Google Assistant, el reconocimiento de voz ha dado un salto cualitativo. Esta tecnología de inteligencia artificial está ahora tan omnipresente en nuestros hogares, teléfonos y coches que sería difícil imaginar la vida sin ella.

¿Quiere saber más sobre el reconocimiento automático del habla (ASR)? Historia, funcionamiento, modelos, aplicaciones... Aquí tiene nuestro artículo.

¿Qué es el reconocimiento de voz?

El reconocimiento de voz se basa en más de 70 años de investigación científica, ¡y aún no ha terminado! ¿Qué es y para qué sirve? He aquí algunas explicaciones.

Reconocimiento automático del habla (ASR): definición

El reconocimiento automático del habla (ASR) es una tecnología de inteligencia artificial para comprender el lenguaje natural. Recoge la voz humana a través de un micrófono, la analiza (palabras pronunciadas, entonación, acento, etc.) y la transcribe a una petición del ordenador, en forma de texto o archivo utilizable por un ordenador. También se conoce como reconocimiento de voz o conversión de voz a texto.

Del dictado por voz al mando vocal

En 1952, los Laboratorios Bell presentaron Audrey, el primer sistema de reconocimiento de voz. Era capaz de identificar los números del 0 al 9, pronunciados por separado, con una tasa de éxito del 99%. Esta máquina transcribía la voz humana: el principio del dictado por voz.

Este logro dio lugar en 1962 a Shoebox, el primer asistente vocal de IBM: una especie de calculadora que entendía problemas matemáticos sencillos dictados oralmente y los resolvía de inmediato. Este software respondía a una demanda: era el primer paso hacia el control por voz.

Mientras que los primeros sistemas de reconocimiento automático del habla eran lentos, torpes y caros, los programas más recientes se acercan a una obra maestra en el mundo de la tecnología. Impulsados por el aprendizaje automático, ahora son capaces de entender distintas voces, acentos e incluso emociones con una facilidad cada vez mayor. El dictado de voz y el comando de voz son las dos tecnologías ASR más populares.

No confundir con la conversión de texto a voz, una tecnología que crea voz artificial a partir de texto escrito. En este caso, se trata de una conversión de texto a voz. Muchos sistemas de IA utilizan tanto comandos de voz como programas de conversión de texto a voz para responder oralmente a las solicitudes. Es el caso, por ejemplo, del callbot en los servicios de atención al cliente, un agente conversacional por teléfono.

¿Cuáles son las aplicaciones del reconocimiento de voz?

Una cosa es cierta: el reconocimiento de voz se ha convertido en parte integrante de nuestra vida cotidiana. Tanto en el mundo privado como en el profesional, lo utilizamos sin darnos cuenta. ¿Por qué tiene tanto éxito? La respuesta está en una gran ventaja: sólo necesita nuestra voz. Con el reconocimiento de voz, somos libres de movernos. No hace falta teclear (como en un IVR) ni mirar una pantalla para que funcione. No hace falta saber escribir, ni siquiera hablar un idioma fuerte, porque el software de aprendizaje automático entiende los acentos y los errores del francés y se adapta en consecuencia. Por no mencionar el hecho de que la voz es mucho más rápida transmitiendo información que la palabra escrita. En resumen, el reconocimiento de voz nos ahorra tiempo.

Hoy en día se utiliza en una amplia gama de sectores, incluidas las siguientes aplicaciones:

Pida cita por teléfono 24 horas al día, 7 días a la semana;

¿Cómo funciona el reconocimiento de voz?

El reconocimiento automático de voz (ASR) es una tecnología compleja diseñada para hacer la vida más fácil. Te explicamos cómo funciona en unas frases.

Los 5 modelos de reconocimiento automático del habla

Para comprender el lenguaje natural, el software suele combinar 5 modelos específicos de ASR:

  • Preprocesamiento acústico: identifica momentos del habla en la grabación;
  • El modelo de pronunciación: asocia las palabras conocidas por el sistema a través de la fonética;
  • El modelo acústico: predice los fonemas más probables ;
  • El modelo lingüístico: predice la secuencia de palabras más probable;
  • El descodificador: combina las predicciones para proponer una transcripción del texto.

¿Quiere saber más sobre nuestras tecnologías? Descubra Zaion Lab.

Noticias Zaion

Manténgase al día de las últimas noticias, tendencias y análisis
en el campo de las relaciones con los clientes aumentadas por la IA conversacional, generativa y de voz.

Descubra las soluciones Zaion

* son necesarios