Microsoft’s VALL-E : après le deepfake l’invention d’une IA capable de reproduire une voix en seulement 3 secondes

VALL-E, c'est le nom d'un nouvel outil de Microsoft qui permet de reproduire une voix humaine à l'identique après une écoute de trois secondes seulement.

Les « deepfake » sont des trucages de vidéos ou d’images reposant sur l’Intelligence Artificielle (IA) et qui permettent de superposer des fichiers sur d’autres fichiers existants. Ils sont souvent utilisés pour créer de fausses informations (infox) ou des canulars plutôt malveillants. Alors qu’ils se limitaient aux images et vidéos, Microsoft vient de dévoiler VALL-E, un système de synthèse vocale capable de reproduire une voix humaine en trois secondes seulement à partir d’un simple échantillon audio. Cette IA peut également reproduire les intonations, le timbre et les émotions, propres à chaque individu. Révolution technologique ou danger ? On va tout vous expliquer.

À quoi peut servir VALL-E ?

L’équipe de Microsoft, l’inventeur de ce nouveau système, pense que ce système servirait potentiellement à des applications de synthèse vocale. Le problème étant qu’il pourrait par ailleurs servir à des personnes malveillantes, à usurper une identité. Par exemple, un discours politique pourrait être modifié à l’insu de l’intéressé, et donc transmettre un message contraire à celui d’origine. En effet, il serait possible d’éditer et de modifier le son à partir d’une transcription textuelle d’un discours.

Microsoft’s VALL-E, un deepfake pour la voix.
Microsoft’s VALL-E, un deepfake pour la voix. Photo d’illustration non contractuelle. Crédit photo : Shutterstock

Comment ça marche ?

Le concept de VALL-E fonctionne grâce à ce que l’on appelle un « modèle de langage de codec neuronal » et s’appuie sur une technologie de compression audio appelée Encodec, dévoilée par Meta (Facebook) en octobre dernier. Les méthodes de synthèse vocale déjà utilisées manipulent des ondes. En revanche, VALL-E, lui, génère directement des codecs audios à partir d’échantillons acoustiques et textuels. En d’autres termes, il analyse le son de la voix, le décompose en jetons (token) avec Encodec puis utilise le « machine learning » afin qu’il corresponde à la voix analysée. Pour réaliser cette prouesse technologique, VALL-E s’appuie sur une gigantesque bibliothèque sonore (Librilight) contenant plus de 60 000 heures de discours provenant de plus de 7000 personnes parlant anglais. La base de données provient principalement de la librairie Librivox qui propose gratuitement des livres audios.

De nombreux exemples diffusés par Microsoft

Sur le site Valle-Demo, on peut découvrir des dizaines d’exemples de phrases conçues par l’IA de VALL-E et certaines sont assez effrayantes par leur ressemblance avec la voix réelle. Le système montre aussi ses limites, car certaines voix ne sont pas vraiment convaincantes, trop synthétiques et repérables par l’oreille humaine. Certains exemples montrent également que différentes intonations peuvent être reproduites par VALL-E.

Le fonctionnement de Microsoft’s VALL-E
Le fonctionnement de Microsoft’s VALL-E. Crédit photo : Microsoft’s VALL-E

Microsoft, conscient des risques de VALL-E

La firme américaine explique être consciente du danger que pourrait représenter cette nouvelle invention. C’est la raison pour laquelle aucun code source n’a été diffusé, en tout cas, jusquà maintenant. Microsoft affirme aussi être en train de développer un autre logiciel qui détecterait les clips audios réalisés par VALL-E et se veut rassurante sur ce point. « Comme VALL-E pourrait synthétiser la parole et l’identité du locuteur, il comporte potentiellement des risques en cas d’utilisation abusive du modèle, comme l’usurpation d’identité vocale ou l’usurpation de l’identité d’un locuteur spécifique ». Nous avons mené les expériences sous l’hypothèse que l’utilisateur accepte d’être le locuteur cible en synthèse vocale. « Si le modèle est généralisé dans le monde réel, il devrait inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix et un modèle de détection. » précise Microsoft dans sa déclaration d’éthique.

Plus de 900 000 abonné(e)s nous suivent sur les réseaux ! Pourquoi pas vous ? Abonnez-vous à notre Newsletter ou suivez-nous sur Google News et sur WhatsApp pour ne manquer aucune invention et innovation !
Source
Techxplore.comValle-demo.github.io

Nathalie Kleczinski

Passionnée de lecture et d'écriture, il était presque logique que je me tourne vers le métier de rédactrice/journaliste professionnelle. Écrire est une passion, un besoin et une manière de communiquer indispensables. Touche-à-tout de l'écriture, j'aime surtout écrire sur des sujets liés à l'environnement, mais aussi à ceux qui prodiguent des conseils, ou des astuces pour vous aider dans votre quotidien. Je suis une adepte des tests en tous genres, surtout s’ils permettent de créer, de faire des économies, ou d’utiliser des produits recycler ! Je voue également une véritable passion aux animaux et suis très sensible à leur bien-être et aux inventions qui peuvent améliorer leurs quotidiens. En revanche, je peux vite devenir cassante lorsqu’il s’agit de parler de maltraitance. Enfin, j’aime découvrir et faire découvrir de nouvelles inventions, de petites choses qui amélioreront notre quotidien, ou celui des personnes en situation de handicap, autre cause qui me tient à cœur. Bénévole dans une association liée à l’aide aux victimes d’accidents de la route, vous comprendrez aisément que cette cause me touche aussi et que j’estime primordial de mettre en avant tout ce qui peut améliorer cette sécurité routière et empêcher un décès supplémentaire sur la route. Ma devise : Carpe Diem, car la vie est courte, et qu'il faut transformer chaque instant en tranches de bonheur !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *


Bouton retour en haut de la page