Les IA non génératives de Microsoft
Introduction
Les IA non génératives de Microsoft sont des outils d’intelligence artificielle qui ne créent pas de contenu nouveau, mais qui transforment des informations existantes : convertir de la parole en texte, traduire d’une langue à l’autre, ou synthétiser une voix à partir d’un texte, par exemple.
Ces technologies, réunies au sein du service Azure AI Speech, permettent aux applications de « comprendre » et de restituer la parole humaine sans intervention manuelle.
Microsoft propose le portail unifié Microsoft Foundry qui inclut un Speech Playground et un Translator Playground pour essayer ces fonctionnalités de reconnaissance vocale, de traduction et de synthèse sans écrire une seule ligne de code.
Dans ce chapitre, nous explorons plusieurs de ces IA non génératives phares de Microsoft : la transcription automatique de la parole, la traduction multilingue de documents, le nouveau service de traduction de vidéos (doublage automatique), la synthèse vocale neurale, l’apprentissage de langues et les avatars parlants animés par IA.
Nous expliquerons les concepts clés de chacune, avec des exemples concrets d’utilisation et les bénéfices qu’elles apportent.
Traduction automatique de documents
La traduction automatique est l’un des domaines historiques de l’IA de Microsoft. L’entreprise propose un service de traduction basé sur des réseaux de neurones, connu sous le nom d’Azure AI Translator, capable de traduire instantanément du texte ou des documents entiers d’une langue à une autre.
Ce service, accessible dans le cloud, couvre plus de cent langues et dialectes et repose sur les dernières avancées en traduction automatique neuronale. Microsoft a d’ailleurs atteint un jalon marquant en 2018 en annonçant avoir égalé, sur un jeu de test, la qualité de traduction d’un humain pour des articles de presse du chinois vers l’anglais.
En pratique, cela signifie que dans des conditions optimales (langues courantes, corpus bien représenté), la machine peut produire une traduction d’une qualité très proche de celle d’un traducteur professionnel.
Bien qu’il reste des défis ouverts (nuances culturelles, contextualisation fine, etc.), la traduction automatique neuronale est devenue suffisamment fiable pour une utilisation large dans les produits Microsoft.
Microsoft a intégré la traduction automatique à de nombreux outils, du traducteur de Bing et de l’application mobile Microsoft Translator pour le grand public, aux fonctions de traduction intégrées...
Transcription vocale et synthèse vocale
La transcription vocale (speech-to-text) consiste à convertir de l’audio en texte écrit. Microsoft Azure propose un service de reconnaissance vocale extrêmement performant, capable de transcrire en temps réel ou en différé des enregistrements audio provenant d’un microphone, d’un fichier ou même d’une vidéo.
Ces transcriptions sont produites avec une haute précision grâce aux réseaux de neurones profonds entraînés par Microsoft ; elles incluent la ponctuation automatique et même la diarisation (c’est-à-dire la séparation des locuteurs dans une conversation, indiquant « qui parle » à chaque segment).
Le système gère nativement un grand nombre de langues parlées et peut détecter la langue de l’allocution sans intervention manuelle si besoin (une fonctionnalité précieuse dans un contexte multilingue).
Microsoft a investi pendant des décennies dans la reconnaissance vocale, atteignant un jalon notable en 2017 : son système de transcription a égalé le niveau des professionnels humains sur un corpus de conversations téléphoniques standard, avec un taux d’erreur d’environ 5,1 % seulement. Ce niveau de précision, qui correspond à la « parité humaine », signifie que dans de bonnes conditions (audio clair, langage courant), la machine fait aussi peu d’erreurs...
Avatars parlants (text-to-speech Avatar)
La nouveauté la plus étonnante en matière de synthèse non générative chez Microsoft est sans doute le text-to-speech Avatar. Il s’agit de produire non pas seulement une voix, mais une vidéo d’un personnage « humain » en train de parler le texte fourni. Autrement dit, l’IA génère un avatar numérique photoréaliste qui bouge les lèvres et s’exprime à voix haute, à partir d’un simple script en entrée. Microsoft propose une collection d’avatars standards (des visages humains virtuels préenregistrés) que l’on peut utiliser directement, et donne aussi la possibilité de créer un avatar personnalisé à partir d’une vraie personne, vous par exemple : en fournissant environ 10 minutes de vidéo d’un acteur en train de parler, le service peut entraîner un modèle reproduisant son apparence et ses mimiques, de pair avec une voix synthétique associée. On obtient ainsi une version numérique de cet acteur, capable de « jouer » n’importe quel texte qu’on lui donnera par la suite, sous forme de vidéo animée en haute définition (1080p à 25 images/s).
Techniquement, la génération d’avatar parlant mobilise...
Apprentissage des langues assisté par l’IA
Microsoft ne se contente pas de traduire le contenu d’une langue à l’autre : ses IA contribuent également à aider les utilisateurs à apprendre et maîtriser de nouvelles langues.
L’apprentissage d’une langue étrangère comporte plusieurs volets - compréhension orale, expression orale, lecture, écriture - et l’IA peut intervenir comme un tuteur virtuel pour l’apprenant, en fournissant des retours personnalisés et des exercices interactifs. Microsoft a développé des fonctionnalités spécifiques, intégrées dans son service Azure AI Speech, qui ciblent notamment l’amélioration de la prononciation, la reconnaissance vocale multilingue et la synthèse vocale pour l’entraînement à l’écoute.
Cet outil génère du texte librement au travers d’une conversation sur un sujet de votre choix, analyse votre parole, ce qui en fait une IA particulièrement utile pour l’éducation et la formation linguistique.
Pour commencer l’apprentissage de la langue anglaise assisté par l’IA, suivez la procédure ci-dessous :
Cliquez sur Build puis sur Models, et sur l’onglet AI Services.
Cliquez sur Azure Speech - Voice Live depuis Foundry puis sur Language...
Doublage automatique de vidéos (Video Translation)
La traduction de vidéos est une nouveauté remarquable du service Azure AI Speech : elle permet de doubler automatiquement une vidéo d’une langue à une autre. Concrètement, à partir d’une vidéo source, par exemple une interview en français, l’IA va produire une nouvelle vidéo où les personnages s’expriment en anglais, comme s’ils avaient enregistré avec leur propre voix une version française de la scène.
Ce processus prend en charge toutes les étapes traditionnellement réalisées manuellement en studio : extraction des dialogues, traduction des paroles, enregistrement d’une nouvelle voix, synchronisation avec l’image, etc.
Microsoft a intégré dans cette solution ses différents moteurs d’IA non générative, avec en plus l’appui d’un modèle de langage avancé (de type GPT) pour améliorer la qualité de la traduction textuelle avant synthèse.
Le résultat pour l’utilisateur est bluffant : on obtient en sortie une vidéo traduite prête à l’emploi, où la piste audio a été remplacée par la version traduite et où des sous-titres synchronisés peuvent être inclus d’office.
Les avantages d’une telle automatisation du doublage sont considérables par rapport aux méthodes classiques : plus besoin de mobiliser des acteurs voix pour chaque langue ni d’engager d’onéreuses postproductions....