Bon : les gens peuvent repérer une vidéo deepfake. Inconvénient : ils ne sont pas si chauds avec le texte

Selon une étude, les internautes sont plus susceptibles d’être dupés par la désinformation présentée sous forme de texte par rapport aux clips vidéo créés à l’aide d’algorithmes.
Les faux contenus générés par des modèles d’apprentissage automatique deviennent de plus en plus réalistes. Les images de personnes de différents âges, sexes et races ressemblent à de vraies photographies. Les voix peuvent être clonées et manipulées pour suivre un script. Les vidéos semblent réalistes avec des techniques d’échange de visage ou de synchronisation labiale. Ces soi-disant deepfakes peuvent donner l’impression que les gens ont dit ou fait des choses qu’ils n’ont pas faites, nous incitant à croire des mensonges.
Les experts et les experts craignaient que les gens ne soient plus facilement dupés par des vidéos deepfake car ils trouveraient le matériel plus crédible en le voyant, tandis que le texte serait facile à identifier comme faux car l’écriture serait évidemment écrite par une machine ou autrement composée.
Mais une expérience menée par des chercheurs du MIT a démontré le contraire. Voir n’est pas croire. Les gens ont du mal à identifier le texte inventé par rapport à la vidéo générée par ordinateur. Même si cela vous semble évident, au moins quelqu’un a fait l’étude. C’est scientifique.
“Nous constatons que les modalités de communication influent sur la précision du discernement : les participants sont plus précis sur la vidéo avec audio que sur la vidéo silencieuse, et plus précis sur la vidéo silencieuse que sur les transcriptions textuelles”, a écrit l’équipe dans un article publié ce mois-ci sur arXiv qui a été soumis à des pairs. -la revue.
Les universitaires ont recruté 5 727 participants à leur expérience et leur ont demandé de lire, d’écouter et de regarder une variété de discours politiques prononcés par le président Joe Biden et Donald Trump. On leur a dit que 50 % du contenu qu’ils visionnaient était faux et on leur a demandé de juger si quelque chose semblait vrai ou faux. Des transcriptions textuelles de faux extraits sonores pour les deux hommes ont été produites par un logiciel. De faux clips vidéo ont été générés en utilisant wav2lip pour synchroniser les séquences vidéo des deux hommes prononçant des discours sur des enregistrements d’acteurs vocaux professionnels imitant la paire à partir de faux scripts.
Pour s’assurer que les résultats n’étaient pas faussés par l’orientation politique, environ la moitié du groupe était des démocrates, tandis que l’autre moitié était des républicains. Dans l’ensemble, ils ont pu déterminer si quelque chose était faux ou non environ 57 % du temps pour le texte, contre 76 % pour l’audio uniquement ; et 82 % pour les vidéos avec audio. Cela pourrait être plus un test des capacités des acteurs de la voix, mais que savons-nous ?
Les gens sont moins susceptibles d’être amenés à croire des mensonges s’ils ont plus d’informations à leur disposition, ont conclu les chercheurs.
“Ces résultats suggèrent que les gens ordinaires sont généralement attentifs à chaque modalité de communication lorsqu’ils sont chargés de discerner le vrai du faux et ont un sens relativement aigu de ce à quoi ressemblent les deux derniers présidents américains”, ont-ils écrit. “Comme les participants ont accès à plus d’informations via l’audio et la vidéo, ils sont en mesure de faire des évaluations plus précises pour savoir si un discours politique a été fabriqué.”
Les participants peuvent juger si l’audio et les vidéos semblent faux en écoutant et en surveillant les signes révélateurs, ce qui est plus délicat avec le texte. Le contexte du texte devient important car il n’y a pas d’indices visuels ou audio que les gens peuvent facilement capter. La question pour le texte devient : est-ce quelque chose que Joe Biden ou Donald Trump dirait, lorsqu’il leur est donné par un scénariste ? L’écart entre la détection précise de la désinformation dans le texte, la parole et la vidéo est susceptible de diminuer à mesure que la qualité des deepfakes devient plus convaincante.
Les chercheurs ont déclaré qu’ils prévoyaient d’étudier l’utilisation de deepfakes plus complexes générés à l’aide de méthodes plus sophistiquées, telles que l’échange de visage dans les vidéos. Le registre a demandé à l’équipe de commenter.
“Le danger des vidéos fabriquées n’est peut-être pas le deepfake moyen produit par algorithme, mais plutôt une vidéo unique, très soignée et extrêmement convaincante”, ont-ils averti. ®