Quelle est la différence entre NLP et NLU ?

La différence entre NLP (Natural Language Processing) et NLU (Natural Language Understanding) n’est pas claire pour vous ? Laissez-nous éclairer vos lanternes.

28 février 2022

 IA :  quelle est la différence entre NLP et NLU ?

Bien qu’une seule petite lettre les différencie, les notions de NLP ( natural language processing) et NLU ( natural language understanding) sont différentes mais complémentaires par la reconnaissance textuelle et la compréhension des mots.

On comprend facilement pourquoi la compréhension du langage naturel est un enjeu extrêmement important pour les entreprises qui désirent utiliser des robots intelligents pour communiquer avec leurs clients.

La notion de NLP, Traitement Naturel du Langage en français, apparaît dans les années 60. Son ambition est de permettre aux machines d’enregistrer puis de traiter des informations formalisées en langage naturel. En résumé de retranscrire de manière fluide la voix de l’humain en texte : le fameux Speech to text !

 

NLU – NLP la différence

 

Pour pouvoir fonctionner et proposer une interaction fluide avec nous, les machines ont besoin d’apprendre grâce au système de traitement du langage naturel (TLN) que l’on appelle natural language processing (NLP)

Le NLP – Le traitement du langage naturel

 

Le NLP ou « Natural Language Processing » est un ensemble de solutions de reconnaissance textuelle qui permet de comprendre les mots et les phrases formulées par les utilisateurs.

Objectif : comprendre un besoin exprimé vocalement par un humain et pouvoir y répondre

Le NLP regroupe toutes les technologies qui prennent en entrée du texte brut et en ressortent un résultat attendu (Natural Language Understanding, synthèse ou traduction par exemple). Concrètement, le NLP permet de comprendre ce que l’humain dit, de traiter la donnée qui est dans le message et d’y apporter une réponse en langage naturel.

Le NLU – un sous composant du NLP

 

Le Natural Language Understanding (NLU) consiste à analyser un texte écrit ou énoncé en langage naturel et à en comprendre les intentions.  Il s’agit donc d’un sous-composant du NLP.

Le NLP interprète littéralement ce que le client dit ou écrit, alors que le NLU identifie les intentions et la signification profonde.

Un NLU est un algorithme que l’on va entraîner à catégoriser des informations “les entrées” selon des “classes de données”. Le modèle finalisé grâce à des réseaux de neurones est ainsi capable de déterminer si un élément X appartient à la classe Y ou à une autre classe Z, etc.

“je cherche à joindre orange, savez-vous  quel est le numéro ?” Le NLU va comprendre que la personne souhaite joindre le service client du groupe de téléphonie.

“Dans quel département est la ville d’Orange ?” Le NLU va comprendre la différence d’intention avec la phrase précédente. On parle ici de la ville et non du groupe de télécommunication.

Le NLU est également capable de reconnaître des entités, c’est-à-dire des mots et expressions qui, s’ils sont reconnus dans la demande de l’utilisateur (Input), peuvent conditionner le cheminement de la conversation.

Dans notre exemple d’orange l’input est : Dans + ville + Orange

 

Intention et entité

La compréhension du langage naturel repose donc sur deux informations clés : l’intention et l’entité.

L’intention permet la compréhension du message émis par l’utilisateur, caractérisée par une structure syntaxique typique que l’on retrouve dans la majorité des inputs correspondant au même objectif.

L’entité est une information présente dans la demande de l’utilisateur, pertinente pour comprendre son objectif, caractérisée par des mots et expressions courts typiques que l’on retrouve dans un grand nombre d’inputs correspondant au même objectif.

  • Le résumé automatique des dialogues
  • Traduction automatique

Le Callbot nourri à l’intelligence artificielle va donc avoir une compréhension évoluée du langage naturel grâce au NLU. Si cela n’est pas assez précis une intervention humaine ponctuelle est possible en utilisant par exemple une plateforme de création d’agents conversationnels low code.

 

NLU – NLP et la reconnaissance de la parole

 

La reconnaissance vocale n’est pas un sujet nouveau : historiquement, le premier objectif de reconnaissance de la parole avait pour but de reconnaître de manière précise 10 chiffres qui étaient transmis à l’aide d’un dispositif câblé (Davis et al., 1952). À partir de 1960, les méthodes numériques sont introduites et vont permettre d’améliorer de manière efficace la reconnaissance d’éléments isolés de langage (comme quand on vous demande de dire 1, 2 ou 3 au téléphone par exemple). Il faudra cependant attendre beaucoup plus longtemps pour s’attaquer à la parole “en continu” qui restera longtemps très complexe (Haton et al., 2006).

 

À l’instar de l’apprentissage de la lecture – où l’on commence par apprendre l’alphabet puis des sons, et enfin des mots – la transcription du langage vocal a évolué avec le temps et la technologie.

Du plus simple, au plus complexe :

  • Reconnaissance de mots isolés,
  • Reconnaissance des mots enchaînés : une seule personne parle
  • La coarticulation : comment un phonème* peut en influencer un autre “c’est trop [P]injuste” par exemple.
  • La prise en compte des éléments perturbateurs : la parole continue ou encore la variabilité d’interlocuteurs, rendue possible par les progrès de l’informatique.

 

L’ASR ou Automatic speech recognition

 

Quand l’on traite d’interaction vocale, il est nécessaire de définir un système de transcription en temps réel d’une interaction vocale.

Cette phase de transcription intervient avec l’étape d’analyse et l’étape de compréhension.

C’est cette étape que l’on appelle NLU (Natural language understanding). La transcription fait appel à des algorithmes qu’on nomme Automatic Speech recognition (ASR), ce sont eux qui génèrent en temps réel une version écrite de la conversation.

Pour faire simple, vous pouvez considérer que l’ASR est un logiciel de reconnaissance de la parole qui permet à une personne d’émettre une requête vocale.

Il transforme alors cette requête en texte écrit après en avoir analysé le contexte. Cette analyse du contexte est tout l’enjeu de l’ASR car la prononciation d’un “phonème” peut avoir plusieurs sens. Quand on prononce le mot “orange” parle-t-on de la couleur, du nouveau nom de France télécom ou du fruit ? C’est bien évidemment le contexte de la phrase qui va permettre une interprétation optimale. Et c’est là que l’IA entre en piste pour trouver le vrai sens de la question, en fonction du contexte.

Découvrez le Zaion Lab icon image