L’impact de l’Intelligence Artificielle sur le Serveur Vocal Interactif

Septembre 2022 par Vincent PERHIRIN

Le SVI (Serveur Vocal Interactif) existe depuis de nombreuses années. Il permet à un appelant d’interagir, tout d’abord avec les touches du téléphone (DTMF), puis grâce à la reconnaissance vocale (ASR ou STT) de mots isolés, pour permettre de qualifier le motif de l’appel ou offrir des libres services (Consultation de compte, obtention d’attestation d’assurance, …).

Le SVI a un rôle très important dans la qualité de la relation client. Le téléphone reste le média de contact privilégié surtout pour des demandes importantes comme une demande d’assistance. Durant la phase de qualification de l’appel, l’obtention du motif d’appel est capitale pour avoir une distribution de l’appel performante. Cette distribution va permettre de limiter les transferts d’appels, les rappels du client et augmenter la satisfaction du client. Les libres services vont, quant à eux, permettre de traiter des flux à faible valeur ajoutée et donner de l’autonomie au client en répondant à sa demande à tout moment. L’image de marque de l’entreprise est donc en jeu au travers de son SVI.

Nous allons voir par la suite comment l’intelligence artificielle permet de faire évoluer le SVI pour l’améliorer.

 

Apport du langage naturel et de l’IA

 

Le langage naturel permet une expression libre de l’appelant à partir d’une question ouverte (exemple : Quel est l’objet de votre demande ?). Il permet de réduire le temps de qualification ainsi qu’un échange plus fluide avec l’appelant. Les dernières évolutions technologiques permettent également de capter les émotions de l’appelant. Le langage naturel permet de transformer la voix en texte. Une fois cette transcription faite, l’intelligence artificielle est utilisée pour la compréhension de la langue écrite. Nous réutilisons ici les technologies éprouvées par le passé dans les Chatbot. L’IA permet une qualification plus fine du motif d’appel comparée aux menus à 2 ou 3 niveaux. En cas d’incompréhension de l’IA, le dialogue va se poursuivre pour obtenir plus de détails ou une reformulation de la demande de l’appelant.

Pour parler à l’appelant, en plus des guides vocaux enregistrés, la synthèse vocale permet une liberté pour restituer l’ensemble des informations souhaitées. L’utilisation d’une voix de marque personnalisée comme celle de la SNCF permet de renforcer l’expérience utilisateur.

 

Architecture

 

La réalisation d’un SVI avec IA nécessite l’ajout de composants logiciels, chaque composant logiciel réalise une fonctionnalité et la communication entre les composants s’appuie sur les protocoles standards (SIP, RTP, VXML, MRCP, API REST).

Le choix de l’éditeur pour chaque module peut être fait de manière indépendante, ainsi l’évolution ou le remplacement d’un module est facilité par ce découpage.

 

Schéma Vincent PERHIRIN

Une description rapide du rôle de chaque module :

  • Orchestrateur Genesys : Collecte l’appel, joue le SVI, puis distribue l’appel grâce à sa stratégie de routage.
  • GVP Genesys : Serveur Vocal Interactif permettant de collecter des DTMF et de jouer les guides audios. Son intégration avec les autres modules permet d’offrir un SVI avec l’ensemble des fonctionnalités.
  • IVR Application Server : Serveur d’application hébergeant l’application vocale VXML
  • Automatic Speech Recognizer (ASR) ou Speech To Text (STT) : Moteur de reconnaissance vocale permettant de faire la transcription de la voix en texte grâce à une grammaire.
  • Text To Speech (TTS) : Synthèse vocale permettant de restituer du texte dans un flux audio.
  • Dialog Manager (DM) : gestionnaire du dialogue, il permet de définir les scénarios des différents cas d’utilisation du SVI avec IA.
  • Natural Language Understanding (NLU) : Compréhension du langage naturel, il permet de catégoriser le texte en intention.

 

Reporting

 

En plus de la mise en place de l’architecture du SVI avec l’IA, il ne faut pas négliger les outils de reporting. Les différents modules génèrent des données qu’il est important d’analyser pour superviser et comprendre l’utilisation du SVI. Il faut éviter l’effet boîte noire, pour cela il faut définir les indicateurs que l’on souhaite suivre. Certains indicateurs sont directement liés à un module comme le taux de confiance de l’ASR ou du NLU, le pourcentage de « No Input » ou de « No Match » de l’ASR. D’autres indicateurs permettent de mesurer la qualité du service comme le taux d’abandon, le taux de transfert, le taux de rappel ou la durée de la phase de qualification.

 

Déploiement et amélioration continue

 

Avant de pouvoir déployer la solution, une première phase est nécessaire pour créer la grammaire et le corpus. Il faut pour cela enregistrer l’appelant pour avoir un ensemble de messages pertinents représentant ses demandes. Ces messages vont ensuite être transcris en texte pour permettre la création de la grammaire de reconnaissance vocale. Ensuite à partir de ces textes, une phase de catégorisation des messages permet de créer le corpus et le modèle utilisé par le NLU.

Le déploiement peut alors démarrer, il est préférable de le faire de façon progressive pour le sécuriser.

Puis régulièrement des phases de tuning vont intervenir pour mettre à jour la grammaire et le corpus. Pour cela, on collecte un échantillon d’appels et on compare le résultat de la compréhension humaine et celle du SVI.

 

Conclusion

 

L’intelligence artificielle permet d’améliorer l’expérience client et la fluidité des échanges. Les deux usages bénéficiant de cet apport sont la qualification des appels qui est plus rapide et plus fine et les libres services qui peuvent être renouvelés pour les rendre plus performants. L’ajout de l’IA dans le SVI ne doit pas être figé, il est important de prévoir une amélioration continue du SVI pour permettre d’avoir toujours une meilleure compréhension de l’appelant et de s’adapter aux évolutions.

Si vous souhaitez en savoir plus n’hésitez pas à aller consulter notre offre.

Glossaire :

API REST Développement de service web en respectant un style architectural.
ASR ou STT Automatic Speech Recognizer (ASR) ou Speech To Text (STT) : Moteur de reconnaissance vocale permettant de faire la transcription de la voix en texte grâce à une grammaire.
DM Dialog Manager (DM) : gestionnaire du dialogue, il permet de définir les scénarios des différents cas d’utilisation du SVI avec IA.
DTMF Dual-Tone Multi-Frequency : Son émis lors de la pression sur une touche du clavier téléphonique.
IA Intelligence Artificielle : Ensemble de théories et de techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence humaine.
MRCP Media Resource Control Protocol : Protocole utilisé entre les SVI et ASR ou TTS.
NLU Natural Language Understanding : Compréhension du langage naturel, il permet de catégoriser le texte en intention.
RTP Real-Time Transport Protocol : Protocole utilisé pour la communication des flux audio.
SIP Session Initiation Protocol : Protocole de signalisation pour les appels téléphoniques.
SVI Serveur Vocal Interactif : Système informatique capable de dialoguer avec un utilisateur par téléphone.
VXML VoiceXML : langage de programmation d’une application vocale.

 

On Recrute !

Restons en contact