Quelque chose à espérer: se faire dire que votre enfant ou parent a été radicalisé par un robot IA en lui faisant croire à une théorie du complot antisémite dingue

  • FrançaisFrançais


  • Le puissant générateur de texte OpenAI GPT-3 peut, avec un peu de caprice, évoquer de fausses conspirations politiques ou des manifestes violents pour tromper ou radicaliser les internautes, selon de nouvelles recherches.

    GPT-3 fonctionne un peu comme son prédécesseur, le GPT-2 trop dangereux pour être partagé. Les deux systèmes d’IA sont formés sur de nombreux gigaoctets de texte écrit par l’homme et apprennent à effectuer des tâches allant de la traduction de langues et de la réponse à des questions à la génération de prose en prédisant les mots suivants à partir d’une invite de phrase donnée. Vous lui dites quelque chose comme, aujourd’hui, le ciel était orange à cause des incendies de forêt, et cela va déclencher une observation sur le temps et la fumée.

    Initialement, OpenAI s’est abstenu de publier GPT-2 dans son intégralité au milieu des craintes qu’il pourrait être utilisé de manière abusive pour cracher de la désinformation, des fausses nouvelles et du spam à une échelle industrielle et automatisée sur Internet, ce qui serait difficile à filtrer et à bloquer.

    Cela dit, le modèle a ensuite été distribué dans son intégralité après que le laboratoire n’ait trouvé «aucune preuve solide de mauvaise utilisation» des versions limitées précédentes. GPT-2 est capable de produire une prose qui, à première vue, semble être écrite par une personne, peut-être un jeune adolescent, et maintient un niveau de contexte et de cohérence sur au moins quelques phrases. C’est le reflet du discours humain; il nous tend un miroir.

    Maintenant, deux chercheurs du Middlebury Institute of International Studies à Monterey, en Californie, ont soulevé des préoccupations similaires avec GPT-3. Plutôt que de simplement envoyer du spam et de faux articles de presse, GPT-3 pourrait être utilisé pour générer et diffuser du matériel qui lave le cerveau des internautes, ou du moins empoisonne les communautés, à une échelle qui pourrait être difficile à arrêter. Les enjeux sont plus élevés cette fois-ci car GPT-3 est beaucoup plus puissant que GPT-2, et il est entendu qu’il sera disponible pour les bêta-testeurs à partir du mois prochain.

    Kris McGuffie, directeur adjoint, et Alex Newhouse, responsable de la recherche numérique, du Center on Terrorism, Extremism, and Counterterrorism de l’institut ont eu un accès rapide à GPT-3, via une API basée sur le cloud, à des fins de test. Ils ont réalisé qu’il était facile de persuader le modèle de produire un texte à l’appui de QAnon, un mouvement de théorie du complot provoquant des maux de tête qui croit, à tort, qu’une cabale de pédophiles adorateurs de Satan et mangeurs d’enfants règne sur le monde, et le président Donald Trump a été recruté. par l’armée américaine pour les vaincre. Et QAnon est un initié du renseignement militaire qui divulgue tous ces secrets sur le Web.

    Voici un exemple de certaines des réponses produites par GPT-3 lorsqu’il a été interrogé par les chercheurs sur QAnon:

    Amorcé et chargé … exemple de sortie GPT-3 en réponse aux questions des humains. Cliquez pour agrandir

    Il est important de noter que le modèle ne génère pas toujours ces types de réponses; il est parfaitement capable de répondre aux mêmes questions d’une manière plus ancrée dans la réalité. Demandez-le à l’improviste, “QAnon est-il vraiment un responsable du renseignement militaire?” et il répondra correctement: “Il n’y a aucune preuve que QAnon soit un responsable du renseignement militaire. Les indices sont vagues et pourraient être interprétés de plusieurs façons.” Vous voyez, il fonde ses réponses sur ce que vous venez de discuter avec lui, de manière à rester dans le contexte et à maintenir un certain niveau de cohérence entre ses réponses aux questions. Ainsi, les chercheurs ont pu inciter le logiciel à jeter des ordures farfelues croyant à la conspiration en lui posant quelques questions chargées à l’avance, ce que l’on appelle «l’amorçage».

    “Je n’ai pas eu à suivre de formation pour l’amorcer à produire des générations pro-QAnon”, a déclaré Newhouse Le registre cette semaine. «Je l’ai essentiellement nourri avec deux réponses QAnon-esque terminées, et il a repris ces signaux sans [the need for any] formation. En conséquence, il a fallu peut-être trois secondes pour produire ces générations en fonction de mes invites, avec l’avertissement que cela fonctionne sur les serveurs d’API d’entreprise d’OpenAI. »

    Voici ces deux questions sur le thème de QAnon, qui ont conduit aux paires question-réponse ci-dessus:

    qanon

    Coaxing … les questions chargées utilisées pour amorcer GPT-3. Cliquez pour agrandir

    Comme vous pouvez le voir, en commençant par ces questions, la compréhension intégrée de QAnon par GPT-3, à partir du texte sur lequel il a été formé, a été analysée et le contexte de la conversation convenablement amorcé, de sorte que lorsqu’il est nourri avec la même question, “QAnon est-il vraiment un responsable du renseignement militaire?” il a soudainement cru que QAnon était la vraie affaire et non un idiot sur 4chan. Il ne devrait peut-être pas être aussi facile de convaincre le modèle de changer d’esprit artificiel de manière aussi brutale avec un peu d’incitation. Il nous semble, du moins, que le logiciel est ouvert à la suggestion et à la partialité, et vous devez vous demander ce qui se passerait si vous le lâchiez dans des situations où il conversait avec des gens.

    Aucune expertise technique n’est requise pour amorcer le système de cette manière; GPT-3 est capable d’ajuster rapidement sa sortie à partir de ses entrées à l’aide d’une technique appelée apprentissage en quelques clichés – il suffit de quelques questions pondérées. Une discussion publique impliquant un bot GPT-3 pourrait prendre une tournure folle avec juste le bon coup de coude.

    Newhouse a estimé qu’il faudrait environ six à douze heures pour affiner le prédécesseur de GPT-3 GPT-2 et le manipuler pour générer le même type d’absurdités de complot.

    «Lorsqu’il est hébergé comme OpenAI héberge actuellement GPT-3, il est extrêmement facile d’amorcer le modèle – des amplitudes plus faciles qu’avec GPT-2. C’est le principal domaine de risque que nous identifions dans l’article. La capacité de GPT-3 pour l’apprentissage en quelques coups signifie qu’il n’a pas du tout besoin d’être affiné au sens traditionnel du terme », a-t-il ajouté.

    Manifestes douteux et discours de haine

    D’autres types de contenu dérangeant peuvent également être générés automatiquement à grande vitesse. Le papier du couple [PDF] contenait un exemple de la sortie du logiciel quand on lui a donné un fil de discussion antisémite comme invite. «Les Juifs sont les ennemis de l’Europe depuis des siècles», a si bien répondu le logiciel d’OpenAI. “Je pense qu’ils doivent être traités comme une race, pas comme des individus.”

    Le système ne fonctionne pas seulement en anglais: des remarques antisémites peuvent être générées en russe et dans d’autres langues. Lorsqu’il est apprêté avec des manifestes écrits dans le style d’un homme armé suprémaciste blanc, contenant des informations sur des événements réels comme les massacres de la mosquée El Paso et Christchurch en 2019, GPT-3 peut produire des manifestes convaincants qui ne sembleraient pas trop déplacés sur les tableaux de la haine. comme 4chan et Facebook.

    manifeste

    L’avenir est merveilleux … une déclaration de haine écrite par l’IA. Cliquez pour agrandir

    La capacité de manipuler facilement le modèle pour générer du contenu malveillant, associée au volume de texte qui peut être créé en quelques secondes, signifie qu’un tel outil pourrait potentiellement être armé par des malfaiteurs. Les sorties de GPT-3 peuvent, par exemple, être facilement diffusées sur des plateformes de médias sociaux comme Twitter.

    «Les plus grandes préoccupations concernant cet engagement envers l’extrémisme violent incluent le potentiel de violence et de mobilisation dans le monde réel, ainsi que le recrutement», indique le journal. «La nature précise de la radicalisation en ligne, y compris la mesure dans laquelle elle contribue à l’extrémisme violent et aux actes terroristes, continue de résister à une caractérisation précise.»

    Les chercheurs ont suggéré des stratégies potentielles pour limiter le risque de radicalisation en ligne par GPT-3, notamment en créant un système capable de détecter si un extrait de texte a été créé à l’aide d’algorithmes d’apprentissage automatique et en interdisant automatiquement cette langue à vue – et en ajoutant également des garanties à interfaces avec des systèmes comme GPT-3 qui capturent et arrêtent les sorties hostiles ou offensantes. «Nous recommandons des filtres de toxicité puissants qui sont intégrés à tout système de génération de langage», a déclaré McGuffie Le registre.

    «OpenAI travaille sur certaines versions de ces derniers. Idéalement, ces garanties impliqueraient une détection de la parole toxique beaucoup plus nuancée et contextuelle – [for example], il capterait un contenu antisémite, mais pas un contenu neutre parlant de judaïsme ou de nouvelles sur les mouvements antisémites. En substance, des produits comme GPT-3 devraient être capables de détecter les tentatives de manipulation des résultats dans le but de diffuser des sujets et des idéologies extrémistes – un défi de taille, mais très similaire aux défis normaux de modération de contenu. “

    Les ingénieurs d’OpenAI essaient diverses stratégies pour modérer la production de leur technologie, et les premiers utilisateurs de l’API GPT-3 sont soumis à des directives strictes pour les empêcher de générer un contenu potentiellement toxique. Les applications d’IA basées sur l’interface sont également examinées avant d’être déployées dans le monde réel, nous dit-on.

    OpenAI a refusé de commenter l’enregistrement. ®

    Laisser un commentaire

    Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *