Je suis désolé, Dave. J’ai peur de pouvoir faire ça: Microsoft dévoile Custom Neural Voice – discours synthétique, mais à consonance humaine

  • FrançaisFrançais



  • Microsoft a poussé son service de voix neuronale personnalisée à la disponibilité générale, même si vous devrez demander à l’entreprise si vous souhaitez utiliser le service de synthèse vocale vaguement dérangeant.

    Déconcertant, car contrairement à la synthèse vocale habituelle que nous avons appris à connaître et à aimer au fil des ans, qui nécessite une quantité substantielle de données (10000 lignes ou plus, selon Microsoft) pour être fluide, Custom Neural Voice nécessite beaucoup moins en termes de l’audio d’entraînement. Le résultat est étrangement humain.

    «Cette nouvelle technologie permet aux entreprises de consacrer un dixième de l’effort traditionnellement nécessaire à la préparation des données de formation», a expliqué Microsoft, ce qui ravira les acteurs au chômage qui cherchent à faire des travaux de voix off en parallèle (il a probablement gagné ‘t).

    Il y a aussi un réel risque d’abus, d’où les portes de l’AG étant désormais entièrement ouvertes.

    Illustration de robot en tant que personne via Shutterstock

    Vous vous souvenez du modèle GPT d’OpenAI qui était trop dangereux pour de simples mortels? Eh bien, il est maintenant en vente sur Azure

    LIRE LA SUITE

    Le propre code de conduite de Microsoft pour la technologie met en garde contre l’utilisation “d’avatars photo-réalistes avec des voix synthétiques pour représenter de vraies personnes” ou “d’utiliser une voix synthétique avec des contenus sans contrôle éditorial”. Directives sensées lors du choix d’un cas d’utilisation, mais peu susceptibles de repousser un mécréant déterminé.

    Quant à la technologie elle-même, trois composants sont en jeu: l’analyseur de texte, le modèle acoustique neuronal et le vocodeur neuronal. Le trio prend le texte saisi, le convertit en une séquence de phonèmes (une unité de base du son), le fait passer à travers le modèle pour prédire les caractéristiques acoustiques avant de finalement cracher un discours audible.

    Le modèle neuronal lui-même est formé à l’aide de réseaux neuronaux et d’enregistrements vocaux réels. Ces enregistrements sont là où les choses se gâtent, et “Microsoft demande à chaque client d’obtenir une autorisation écrite explicite du talent vocal avant de créer un modèle vocal.” Une vérification est également effectuée.

    Après tout, une fois que ce modèle est à la hauteur, la voix pourrait dire toutes sortes de choses. Microsoft insiste également sur le fait que l’utilisation d’une voix synthétique soit divulguée aux utilisateurs, ce qui pourrait rendre certains des cas d’utilisation incessamment joyeux de type chatbot présentés potentiellement gênants.

    Les adoptants ont inclus AT&T, qui a demandé à un artiste de la voix off de produire 2000 phrases et lignes afin d’exprimer le personnage de dessin animé Bugs Bunny avec Custom Neural Voice. Au moins dans ce cas, on sait que Bugs est un personnage fictif. ®

    L'équipe de Comparaland

    Rédacteur web depuis 2009 et webmestre depuis 2011.

    Je m'intéresse à tous les sujets comme la politique, la culture, la géopolitique, l'économie ou la technologie. Toute information permettant d'éclairer mon esprit et donc, le vôtre, dans un monde obscur et à la dérive. Je suis l'auteur de plusieurs livre

    Pour me contacter personnellement :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *