Hé, par ici, je parle … Les universitaires aident les ordinateurs à déterminer dans quelle direction vous faites face lorsque vous parlez

  • FrançaisFrançais


  • Vidéo Pour améliorer la façon dont les gens parlent aux machines dans des environnements avec plusieurs appareils connectés au réseau, boffins de l’Université Carnegie Mellon aux États-Unis a mis au point une technique de mesure acoustique pour déterminer la direction à laquelle une personne est confrontée lorsqu’elle parle.

    Dans un e-mail à Le registre, Karan Ahuja, étudiant au doctorat à la CMU, a expliqué que lui, son camarade Andy Kong et les professeurs Mayank Goel et Chris Harrison, ont mis au point une nouvelle technologie audio qui “permet aux commandes vocales avec adressabilité, d’une manière similaire à regarder, mais sans avoir besoin de caméras. “

    En d’autres termes, les caméras vidéo peuvent utiliser le suivi du regard pour deviner à qui ou à quoi une personne s’adresse lorsqu’elle parle, mais les appareils centrés sur l’audio ne disposent pas d’un moyen fiable de déduire le visage d’un individu. Les mots de réveil utilisés pour activer le logiciel d’assistant numérique dans des appareils comme Amazon Echo et Nest Audio fournissent ce signal, mais il y a un risque de confusion si plusieurs appareils adressables par la parole écoutent.

    Les calculs de direction de la voix offrent un moyen de simplifier l’interaction orale avec les machines en précisant quel appareil est adressé.

    Dans un article intitulé “Direction-of-Voice (DoV) Estimation for Intuitive Speech Interaction with Smart Device Ecosystems”, présenté le mois dernier lors du 33e Symposium annuel ACM sur les logiciels et technologies d’interface utilisateur (UIST ’20), les informaticiens de la CMU montrent comment la parole peut être utilisée comme canal de communication directionnel.

    La technique dont ils parlent n’est pas un algorithme de direction d’arrivée (DoA), utilisé pour localiser la source d’un son. Au contraire, leur algorithme DoV peut déterminer la direction dans laquelle une voix a été projetée.

    «Cela permet aux utilisateurs d’interagir facilement et naturellement avec divers écosystèmes d’appareils à commande vocale, alors que les interactions vocales actuelles souffrent d’une confusion multi-appareils», explique leur article.

    OK, donc vous avez laissé passer l’air de ce PC. Coupez les haut-parleurs. Couvert les LED. Déconnecté le moniteur. Maintenant, à propos du bloc d’alimentation qui fuit des données …

    LIRE LA SUITE

    Ils envisagent la DoV comme un moyen de lever l’ambiguïté des commandes vocales, permettant aux haut-parleurs de s’adresser aux smartphones, aux haut-parleurs connectés au réseau, aux téléviseurs et à d’autres kits attentifs sans appeler un mot de réveil. Le travail a également le potentiel de réduire l’activation involontaire de services comme Alexa ou Siri, qui répondent parfois à des énoncés qui ressemblent à leurs mots de réveil. Et les chercheurs suggèrent qu’il pourrait également être utilisé à d’autres fins, comme permettre aux aides auditives d’amplifier sélectivement les sons provenant de directions spécifiques.

    DoV repose sur deux aspects de la parole humaine: que les hautes fréquences s’atténuent plus rapidement à des angles par rapport à l’axe de face du locuteur et que les énoncés ont des caractéristiques directionnelles différentes à différentes fréquences.

    “En termes simples, si une voix est dirigée vers un microphone (c’est-à-dire face), des fréquences vocales aiguës et basses sont présentes”, explique le journal. “Cependant, si nous recevons un son lorsqu’un utilisateur faisait face à une autre direction, ou si le son a dû faire écho pour atteindre le microphone, nous voyons généralement des fréquences élevées réduites par rapport aux basses fréquences.”

    La technique des boffins prend en compte la nature des environnements clos où les sons rebondissent, créant de multiples chemins associés au son source et à ses échos.

    En mesurant les effets de trajets multiples des mots prononcés, ils ont pu déterminer si une personne est ou non face à un micro donné avec une précision d’environ 93,1%. Cela représente le meilleur résultat du genre sur la base de la recherche actuelle et constitue une étape importante pour rendre la technique commercialement réalisable, disent-ils.

    En essayant de prédire l’angle spécifique auquel une personne fait face dans huit directions de la boussole, leur système a géré une précision de 65,4%, ce que les informaticiens reconnaissent n’est “pas encore assez précis pour les applications orientées utilisateur”. Et ils reconnaissent que leur mise en œuvre ne traite pas des scénarios avec plusieurs haut-parleurs ou des environnements bruyants.

    Ils soulignent des recherches antérieures qui ont géré une identification légèrement meilleure spécifique à l’angle (76,8%), mais nécessitaient un réseau de six microphones répartis dans une pièce de géométrie connue. Leur approche, disent-ils, a l’avantage d’être exclusivement logicielle et ils notent qu’il n’est pas nécessaire d’envoyer des données vers le cloud.

    Cette vidéo fournit plus de détails:

    Estimation de la direction de la voix (DoV) pour une interaction vocale intuitive avec les écosystèmes d’appareils intelligents

    Le matériel de test des chercheurs se composait d’un microphone USB à 4 canaux Seeedstudio ReSpeaker et d’un MacBook Pro avec 16 Go de RAM et un processeur Intel i5 bicœur fonctionnant à 3,1 GHz pour le traitement et la classification audio. Ils ont utilisé Python sur le backend pour la collecte de données, le traitement du signal et l’apprentissage automatique – basé sur un algorithme Extra-Trees Classifier.

    Ils ont rendu leur ensemble de données disponible sur GitHub, pour toute personne intéressée par la réplication de son travail ou son développement. ®

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *