Une IA génère le portrait d’une personne grâce à sa voix

Le MIT a conçu “Speech2Face”, une IA capable de générer le portrait d’une personne à partir d’extraits de sa voix.

Vous êtes vous déjà demandé si votre voix correspondait à votre physique ?

Aujourd’hui l’intelligence artificielle est capable de faire énormément de choses. Chaque jour, des chercheurs partout dans le monde tentent de la développer et de lui trouver de nouvelles applications.

Récemment, des travaux publiés initialement en 2019 par le Computer Science and Artificial Intelligence Laboratory du MIT, ont refait surface. Les chercheurs ont conçu “Speech2Face”, un réseau de neurones artificiels capable de reconstituer un visage à partir d’un extrait vocal.

Un système d’IA parfait ?

Le système a été entraîné à partir de millions de vidéos YouTube de trois secondes minimum. Speech2Face se base sur les caractéristiques qui jouent sur notre façon de parler : le genre, l’âge, la forme de la bouche, la langue, l’accent, la vitesse ou encore la prononciation. L’IA va rassembler ces éléments pour créer un visage le plus proche possible de la réalité. Les résultats obtenus montrent une réelle ressemblance entre les portraits effectués et les personnes dont la voix a été analysée. Cette technologie pourrait être utilisée dans le cadre d’enquêtes policières, pour générer le profil de suspects.

L’IA n’est cependant pas parfaite, elle a même montré plusieurs problèmes. Elle va par exemple associer un type de voix à un genre, aiguë pour les femmes, grave pour les hommes. Elle confond également un accent ou une prononciation avec une ethnie. “Le système a l’impression de pouvoir toujours déterminer l’origine ethnique d’une personne en se basant sur la façon dont elle parle, mais il se trompe souvent”. Speech2Face réussit donc à reproduire les préjugés et les stéréotypes qui jusqu’ici ne semblaient être l’apanage que des êtres humains.