Table des matières:
- Comment l'apprentissage en profondeur génère des voix humaines
- Recréer la voix d'une personne sans voix
- Équilibrer les utilisations négatives des synthétiseurs d'IA
Vidéo: Napoléon Bonaparte : Le Secret pour Mener le Monde | Citations (Novembre 2024)
En 2017, la sclérose latérale amyotrophique (SLA), trouble neurologique dévastateur, a privé Pat Quinn, fondateur du célèbre Ice Bucket Challenge, de son aptitude à parler.
Grâce aux progrès de l'apprentissage machine et de l'apprentissage en profondeur, les algorithmes d'intelligence artificielle sont devenus très efficaces pour imiter l'homme. Mais si de nombreux développements importants dans l’espace ont été négatifs, le pouvoir d’imitation d’Amnesty International a été une force de changement positif pour Quinn.
"La plupart des personnes atteintes de SLA (aussi appelée motoneurone) finissent par être paralysées et incapables de communiquer avec des voix" artificielles "artificielles", déclare Oskar Westerdal, cofondateur de Project Revoice, une initiative visant à aider les patients atteints de SLA comme Quinn.
Pour recréer la voix de Quinn, Project Revoice a collaboré avec Lyrebird, l’une des rares entreprises qui utilisent l’IA pour cloner la voix d’une personne. Ce groupe comprend également WaveNet de Google et Voicery, une startup soutenue par Y Combinator qui utilise l’IA pour créer des enregistrements vocaux synthétisés..
Comment l'apprentissage en profondeur génère des voix humaines
Derrière ces applications se trouvent des algorithmes d’apprentissage en profondeur, une branche populaire de l’intelligence artificielle, qui consulte de grands ensembles de données pour des informations et des modèles qui ne peuvent pas être capturés avec un logiciel traditionnel, basé sur des règles. Lorsque vous entraînez un synthétiseur vocal à apprentissage en profondeur avec suffisamment d'enregistrements vocaux, il crée un modèle numérique qui représente la voix de la personne et peut générer de nouveaux échantillons de voix.
Avant l'avènement de la technologie de synthèse vocale basée sur l'IA, les patients SLA devaient utiliser des voix numériques génériques qui n'étaient pas les leurs. D'autres technologies pourraient assembler des phrases préenregistrées avec la voix du patient, mais les résultats étaient trop artificiels et nécessitaient une utilisation minimale de plusieurs dizaines d'enregistrements vocaux.
Les applications d'apprentissage en profondeur, par contre, nécessitent beaucoup moins de données et fournissent de meilleurs résultats. «Ce que Lyrebird peut réaliser avec seulement quelques heures d’audio est remarquable: il donne aux gens un clone vocal numérique complet, leur permettant de dire ce qu’ils veulent», déclare Westerdal.
Recréer la voix d'une personne sans voix
L'une des limites des applications d'apprentissage en profondeur réside dans leur dépendance à des échantillons de données de haute qualité pour la formation de leurs réseaux de neurones. Le problème des patients SLA est qu’une fois qu’ils ont perdu la voix, il est impossible d’enregistrer des échantillons vocaux. Heureusement, Quinn avait des heures de discours et d'entretiens enregistrés.
"Le plus gros défi était la qualité. Cette technologie est totalement dépendante de la qualité des enregistrements, qui suivent également un script exact. Nous avons donc dû travailler avec un studio d'enregistrement pour" remasteriser "manuellement et transcrire chaque ligne de dialogue que nous pouvions trouver. de Pat ", dit Westerdal.
"Nous avions un peu peur de ne pas être en mesure de fournir une excellente qualité pour créer la voix de Pat", a déclaré Jose Sotelo, cofondateur de Lyrebird. "Etant donné que nous ne pouvions pas obtenir des enregistrements en clair, la qualité finale de la voix artificielle n’est pas parfaite. Nous pensons que nous pouvons faire un travail bien meilleur avec des enregistrements en clair."
Les résultats semblent encore un peu artificiels et synthétiques. Mais pour Quinn, qui utilisait une voix générique pour communiquer, la différence était spectaculaire. "Après avoir entendu ma voix grâce à cette nouvelle technologie, j'ai été époustouflé! Pour que les patients sachent qu'ils peuvent avoir leur propre voix après que la SLA l'ait enlevée, cela changera la façon dont les gens vivent avec la SLA", a-t-il déclaré.
Quinn recommande aux patients SLA d'enregistrer leurs voix avant qu'il ne soit trop tard. "Après avoir entendu ma propre voix à nouveau, j'ai besoin que les patients SLA sachent que l'enregistrement de leur voix est extrêmement important", a-t-il déclaré.
Équilibrer les utilisations négatives des synthétiseurs d'IA
Plus tôt cette année, FakeApp, une application d’échange de visage reposant sur l’intelligence artificielle, a déclenché une avalanche de fausses vidéos pornographiques mettant en vedette des célébrités et des hommes politiques. Il est à craindre que des applications telles que FakeApp et Lyrebird ouvrent une nouvelle ère de fausses informations, de fraudes et de contrefaçons.
La page sur l'éthique sur le site Web de Lyrebird avait précédemment reconnu que la technologie pouvait "potentiellement avoir des conséquences dangereuses telles que des diplomates trompeurs, la fraude, et plus généralement tout autre problème causé par le vol de l'identité de quelqu'un d'autre".
Pour illustrer ce propos, le site Web de la société contient plusieurs enregistrements de synthèse créés avec les voix de Donald Trump et de Barack Obama.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4 septembre 2017
L’histoire de Quinn pourrait aider à faire la lumière sur les aspects positifs d’une industrie qui s’est frayé un chemin pour les utilisations potentiellement inquiétantes et contraires à l’éthique de ses applications. "Il est important que les gens réalisent le bon côté de cette technologie", rappelle Sotelo de Lyrebird.
Outre les utilisations médicales, les applications de synthétiseur d'intelligence artificielle peuvent servir d'autres objectifs productifs. Voicery fournit aux marques des voix numérisées personnalisées basées sur des algorithmes d'intelligence artificielle. Google expérimente également WaveNet pour offrir aux utilisateurs de ses appareils Google Assistant une expérience plus naturelle. Parmi les autres domaines où la technologie est utile, citons l’automatisation des livres audio ou la simplification du doublage vocal dans les films.
Des obstacles éthiques et juridiques se poseront sans aucun doute et les débats se poursuivront. Mais pour Quinn, l'IA est une force pour le bien. "Je ne veux pas ressembler à un ordinateur", dit-il. "Je veux ressembler à moi."