Qu’est-ce que la reconnaissance vocale (ASR) ?

06/07/2022

Depuis Audrey, le tout premier système capable de reconnaître les chiffres de 0 à 9, aux assistants vocaux ultras sophistiqués Alexa d’Amazon ou Google Assistant, la reconnaissance vocale a fait un bond en avant. Cette technologie de l’intelligence artificielle se retrouve aujourd’hui partout, dans nos maisons, téléphones et voitures, au point qu’il serait difficile de s’en passer.

Vous voulez en savoir plus sur la reconnaissance automatique de la parole (ASR) ? Histoire, fonctionnement, modèles, application… Voici notre article.

Qu’est-ce que la reconnaissance vocale ?

La reconnaissance vocale repose sur plus de 70 ans de recherches scientifiques et n’a pas fini de faire parler d’elle ! Qu’est-elle et à quoi sert-elle ? Explications.

La reconnaissance automatique de la parole (ASR) : définition

La reconnaissance automatique de la parole ou automatic speech recognition (ASR) est une technologie de l’intelligence artificielle permettant de comprendre le langage naturel. Elle capte la voix humaine à partir d’un microphone, l’analyse (mots prononcés, intonation, accent…) et la retranscrit en requête informatique, sous la forme d’un texte ou d’un fichier exploitable par un ordinateur. On l’appelle aussi reconnaissance vocale ou speech-to-text (conversion voix-texte).

De la dictée vocale à la commande vocale

En 1952 apparaît Audrey des laboratoires Bell, le tout premier système de reconnaissance vocale. Il est capable d’identifier les chiffres de 0 à 9, prononcés séparément, avec un taux de réussite de 99 %. Cette machine retranscrit la voix humaine : c’est le début de la dictée vocale.

Cet exploit de l’époque conduit ensuite à Shoebox, premier assistant vocal de l’entreprise IBM en 1962 : une sorte de calculatrice qui comprend les problèmes mathématiques simples dictés à l’oral, puis qui les résout dans la foulée. Ce logiciel-ci répond à une demande : c’est ici les prémices de la commande vocale.

Si les premiers systèmes de reconnaissance automatique de la parole sont lents, maladroits et onéreux, les logiciels récents se rapprochent du chef-d’œuvre dans le monde de la technologie. Poussés par le machine learning, ils sont désormais capables de comprendre différentes voix, accents et même émotions de plus en plus facilement. La dictée vocale et la commande vocale sont les deux technologies les plus populaires de l’ASR.

À ne pas confondre avec la synthèse vocale, une technologie créant la parole artificielle à partir d’un texte écrit. Il s’agit alors d’une conversion de texte en voix (text-to-speech). De nombreux systèmes d’IA utilisent à la fois un logiciel de commande vocale et de synthèse vocale pour répondre oralement à la demande. C’est par exemple le cas du callbot dans les services clients, un agent conversationnel par téléphone.

Quelles sont les applications de la reconnaissance vocale ?

Une chose est sûre : la reconnaissance vocale a pris une place considérable dans nos quotidiens. Dans le monde privé comme professionnel, nous l’utilisons sans même nous en rendre compte. Pourquoi un tel succès ? La réponse tient en un seul grand avantage : elle n’a besoin que de notre voix. Avec la reconnaissance vocale, nous sommes libres de nos mouvements. Il n’est pas nécessaire de taper sur un clavier (tel qu’avec un SVI) ou de fixer un écran pour qu’elle fonctionne. Il n’est donc pas nécessaire de savoir écrire, ni même de parler un langage soutenu, car le logiciel de machine learning comprend les accents, les fautes de français et s’adapte en conséquence. Sans compter que la voix permet de transmettre beaucoup plus rapidement les informations qu’à l’écrit. En bref, la reconnaissance vocale nous fait gagner du temps.

On la retrouve aujourd’hui dans de nombreux secteurs d’activités, dont voici des exemples d’applications :

Prendre un rendez-vous par téléphone 24h/24 et 7j/7 ;

Consulter le solde de son compte
Dicter les comptes-rendus de consultation médicale ;
Obtenir un véhicule de remplacement en cas de sinistre

Comment fonctionne la reconnaissance vocale ?

La reconnaissance automatique de la parole (ASR) est une technologie complexe conçue pour simplifier la vie. On vous explique son fonctionnement en quelques phrases.

Les 5 modèles de reconnaissance automatique de la parole

Afin de comprendre le langage naturel, le logiciel combine généralement 5 modèles propres à l’ASR :

Le prétraitement acoustique : identifie les moments de parole dans l’enregistrement ;
Le modèle de prononciation : associe les mots connus par le système via la phonétique ;
Le modèle acoustique : prédis les phonèmes les plus probables ;
Le modèle linguistique : prédis la séquence de mots la plus probable ;
Le décodeur : combine les prédictions pour proposer une transcription en texte.

Vous souhaitez en savoir plus sur nos technologies ? Découvrez le Zaion Lab.

Actualités Zaion

Restez au courant des dernières actualités, tendances et analyses
dans le domaine de la Relation Client augmentée par l'IA Conversationnelle, Générative et Vocale.