La reconnaissance vocale de locuteurs : comment et pourquoi

Reconnaitre une personne par sa voix est de plus en plus un enjeu fort en matière d’authentification des personnes à des fins de vérification et de sécurité. La reconnaissance de locuteurs est un sous-ensemble de la reconnaissance vocale qui, par le deep learning en lieu et place des méthodes statistiques, progresse très fortement.

Reconnaissance dépendante ou indépendante

Il existe deux types de reconnaissance de locuteur : soit par la reconnaissance dépendante du texte (Text-dependant speaker recognition), soit par la reconnaissance indépendante du texte (Text-independant speaker recognition). Dans le premier cas, l’algorithme est entrainé par des phrases pré établies et dites par un panel de locuteurs à reconnaitre. Dans le second cas, il n’y a pas d’entrainement sur une phrase spécifique, ce qui rend la méthode sans doute moins efficace.

Identification ou authentification vocale

La majorité des solutions développées en reconnaissance de locuteurs ont une objectif d’authentification, c’est-à-dire vérifier avec un niveau de doute minimal qu’une personne est bien celle qui a enregistré sa voix pour vérification. Cela répond aux besoin des entreprises de minimiser les risques de fraude (usurpation d’identité notamment) vis-à-vis de leurs clients. Maintenant ces solutions ne permettent pas reconnaitre la personne, parmi un groupe de locuteurs, qui nous a principalement adressé la parole. Dans ce cas, il s’agit de mettre en place un algorithme d’identification. L’approche est d’autant plus complexe si plusieurs personnes (locuteurs) parlent en même temps, auquel cas la méthode d’authentification vocale doit intégrer le principe de diarisation, c’est-à-dire une segmentation de l’enregistrement vocal de sorte d’obtenir des segments vocaux ne contenant si possible qu’un seul locuteur.

Python, Pyannote et DeepSpeaker

Il existe aujourd’hui une offre commerciale de solutions de reconnaissance de locuteurs (Microsoft Azure, Oxford Wave Research Vocalize …). Cela reste un domaine pour lequel beaucoup de travaux de recherche sont en cours. Pacte Novation s’est essayé à la construction d’un logiciel en s’appuyant sur le langage Python, la librairie Panda pour la gestion des données, la librairie Tensorflow de Google avec une surcouche Keras pour la construction du réseau de neurones, Pyannote.audio pour la diarisation des locuteurs et enfin DeepSpeaker, un système d’intégration de haut-parleurs neuronaux. Après 6 mois d’effort, l’algorithme de d’authentification vocale est efficace à 73%.

Nous vous proposons des solutions autour du système d’information, système expert, embarqué et édition de logiciels, nous permettant de répondre à la plupart des exigences du marché.