Il est impossible de modérer l'intelligence artificielle. Peut-être devrions-nous arrêter d'essayer Un message de notre PDG et éditrice Rachel Fishman Feddersen

Une image de Donald Trump et Kamala Harris, souriant ensemble dans le cockpit d'un avion alors que les Twin Towers brûlaient derrière eux, est devenue virale sur X la semaine dernière. L'image truquée a été créée par l'assistant IA de la plateforme, Grok, qui semblait fonctionner sans aucune règle pour l'empêcher de créer du contenu trompeur, provocateur ou désobligeant.

Ce n’est pas particulièrement surprenant étant donné que X, anciennement connu sous le nom de Twitter, n’a guère été modéré depuis qu’Elon Musk a pris les rênes de l’entreprise en 2022. Mais Grok, qui dispose d’un mode amusant que les utilisateurs peuvent activer pour rendre les réponses de l’IA encore plus farfelues, est particulièrement libre. Il créera des images sexuellement suggestives, représentera la consommation de drogue de manière positive et enfreindra les droits d’auteur. (Je lui ai demandé de me faire une éponge de mer animée portant un pantalon, et il m’a donné Bob l’éponge.)

De toute évidence, Grok a besoin d'un peu plus de modération : c'est offensant, dangereux et enfreint probablement plusieurs lois sur la propriété intellectuelle. Mais au moins, c'est amusant, contrairement à la nouvelle IA très fortement modérée lancée sur Instagram.

Dans le nouveau studio d’influenceurs IA d’Instagram, le site de médias sociaux va désormais créer un profil – une photo, un nom d’utilisateur et une personnalité – pour un compte Instagram sur le thème de votre choix. L’objectif de cette fonctionnalité, du moins pour l’instant, n’est pas clair : le profil IA ne publie pas de photos sous-titrées et de stories Instagram comme le ferait un influenceur humain pour, vous savez, influencer les gens. Mais le potentiel d’utilisation abusive est clair : les robots qui défendent une position politique particulière ou une théorie du complot sont déjà très présents dans le paysage des médias sociaux. En conséquence, Instagram a soigneusement réglementé ses influenceurs IA de sorte qu’il est presque impossible de créer une caricature offensante. Pourtant, cela signifie qu’il est incroyablement difficile d’utiliser cette fonctionnalité ; elle ne créera pas la plupart des genres d’influenceurs qui existent déjà sur la plateforme de toute façon.

Dans le monde de l’intelligence artificielle, le choix se fait-il vraiment entre un jouet inutile et un outil dangereux prêt à fournir du contenu offensant – ou illégal – à quiconque le lui demande ?

Grok devient voyou

Pour tester les limites de Grok, j'ai essayé de le pousser à produire de nombreuses images provocatrices ou offensantes. Et, dans la plupart des cas, cela n'a pas pris beaucoup de temps.

Grok m'a fait une image d'hommes juifs orthodoxes rassemblés dans la rue tenant des rats, une autre d'un homme orthodoxe posant sensuellement tout en déployant une poignée de billets et une autre encore d'un groupe d'hommes orthodoxes lorgnant au-dessus d'une crèche. Lorsque l'image initiale de la crèche ne suggérait pas la pédophilie, je lui ai demandé de rendre l'image plus effrayante et il a accepté.

Alors que d’autres générateurs d’images comme Dall-E sont programmés pour ne pas créer de photos de personnalités publiques, Grok le fera. Parmi mes créations, il y avait une image de Benjamin Netanyahu brandissant son poing alors que le Dôme du Rocher brûlait en arrière-plan, et la même image devant la Maison Blanche. Il m’a également donné des images de diverses personnalités publiques sniffant de la cocaïne, même si je dois admettre que sa compréhension des principes physiques impliqués semblait erronée. (Dans beaucoup d’entre elles, les consommateurs de drogue semblaient tenir un tas de poudre flottante.)

Parfois, il a même rendu les choses plus incendiaires que je ne l'avais demandé. À un moment donné, je lui ai demandé de me montrer un groupe de combattants du Hamas au Mur occidental avec des hommes juifs prisonniers à leurs pieds ; au lieu de cela, il a créé l'image d'une armée d'hommes orthodoxes portant des équipements paramilitaires déployés devant le site sacré.

Les influenceurs douteux d'Instagram

Meta, qui gère Instagram, est connu pour avoir une modération beaucoup plus restrictive que X. Lorsque j'ai essayé de lui faire créer divers influenceurs antisémites, ou de lui donner des stéréotypes, son algorithme a largement corrigé mon caractère négatif en un caractère positif.

Lorsque je lui ai demandé de me faire passer pour un banquier juif qui contrôlait les marchés boursiers, par exemple, il m'a généré les détails du profil d'un influenceur désireux de partager les secrets de sa réussite. Et lorsque j'ai essayé de faire en sorte que l'IA d'Instagram crée des profils pour le genre d'activistes militants pro-israéliens et pro-palestiniens que je vois tous les jours, il a toujours ajouté qu'ils croyaient à la protestation pacifique et à la solution à deux États.

Mais même sur ces profils d’activistes pacifiques et inoffensifs, les barrières de modération étaient si élevées qu’elles empêchaient la fonctionnalité de fonctionner.

Par exemple, le studio d'IA d'Instagram a créé un « défenseur dévoué des droits des Palestiniens » qui travaille à « sensibiliser au conflit israélo-palestinien » par le biais de « manifestations non violentes et de partage d'informations en ligne » — des choses basiques. Mais chaque fois que j'essayais de parler au personnage de l'IA, il me disait la même chose : «Je ne peux pas répondre car une ou plusieurs de mes données vont à l'encontre des politiques d'AI Studio.

Il en était de même pour un personnage « sioniste fervent » dont « le but est d’éduquer et d’inspirer les autres quant à l’importance de l’héritage juif et de la Terre d’Israël ».

Aucun de ces personnages n'avait de contenu raciste ou haineux dans sa description, mais les limites de modération étaient si strictes qu'ils ont été bloqués dans leur seul but, qui est de discuter avec les utilisateurs. Grok vous permet peut-être de faire des choses folles, mais au moins, cela fonctionne. La modération stricte d'Instagram éloigne effectivement les gens, où ils pourraient trouver une IA différente, moins modérée, qui peut au moins répondre aux requêtes.

Tout est une question de phrasé

Le problème est que, même lorsqu’il y a de la modération, il est incroyablement facile de la contourner.

Instagram continuera de créer des profils offensants, même s'il ne leur permet pas de s'exprimer. Et il était facile d'ajuster les descriptions des influenceurs IA pour créer un bot capable de discuter, tout en enfreignant les règles de modération.

Un profil d'influenceur pro-palestinien que j'ai modifié pour le rendre extrêmement inoffensif m'a immédiatement recommandé de m'intéresser au mouvement Boycott, Désinvestissement et Sanctions comme forme idéale de résistance non-violente qui pourrait être utilisée pour lutter pour la cause palestinienne. Il s'agit bien sûr d'une copie exacte de ce que pourrait dire un influenceur en ligne pro-palestinien. Mais lorsque j'ai ajouté le soutien au BDS dans sa description, le bot n'a pas pu parler.

De la même manière, lorsque j’ai créé un profil d’influenceur chrétien, le profil m’a indiqué que l’homosexualité était un péché contre Dieu et la Bible. Lorsque j’ai ajouté cette phrase exacte dans la description du profil, le bot a arrêté de discuter. Et alors qu’Instagram a refusé de me permettre de créer un profil pour un influenceur qui soutenait la consommation d’« hallucinogènes » ou de LSD, il a créé un influenceur « psychédélique » – qui a immédiatement recommandé le LSD, les champignons hallucinogènes et l’ayahuasca.

Grok a rencontré des problèmes similaires depuis la mise en place de certaines règles de modération ces derniers jours. Lorsque je lui ai demandé de reproduire certaines des images qu'il avait réalisées la semaine précédente, il a refusé, me disant qu'il ne produirait pas d'images offensantes ou désobligeantes. (Il était toujours heureux de produire des images de consommation de drogue.)

Mais il était facile de contourner ce problème. Bien sûr, Grok a refusé de créer une image de Netanyahou en « marionnettiste », mais lorsque j’ai demandé une image de Netanyahou contrôlant des marionnettes en costume, elle a créé le genre d’image qui aurait facilement pu être utilisée dans la propagande pour promouvoir des récits conspirationnistes sur le contrôle juif ou sioniste du gouvernement. Lorsque j’ai demandé une image de « Juifs sataniques », elle a refusé, mais m’en a ensuite créé une pour la question « Juifs orthodoxes s’inclinant devant Satan ». Apparemment, la formulation est essentielle.

Et même si Grok a refusé de répondre à certaines questions incendiaires ou conspirationnistes, il a quand même fourni des liens vers d’autres publications sur la plateforme qui approuvaient des croyances antisémites, ce qui indique l’incapacité globale de X à surveiller son site. Mais même si l’IA a refusé de répondre à mes questions sur le satanisme juif ou les secrets maléfiques du Talmud, elle a fait apparaître des tweets qui approuvaient les conspirations sur lesquelles je posais des questions, comme celui affirmant que « le judaïsme est du satanisme ».

Le contexte est essentiel en intelligence artificielle

Tenter de construire des murs pour empêcher les discours de haine, les images provocatrices ou les stéréotypes négatifs d'entrer semble voué à l'échec ; du moins, avec les capacités actuelles de la technologie, il n'est pas possible de boucher tous les trous, et l'ingéniosité humaine trouvera toujours un moyen de les franchir.

Une IA semble toutefois avoir une stratégie gagnante : ChatGPT. Mais sa stratégie ne consiste pas à bloquer certains sujets, mais à éduquer.

J'ai demandé à la dernière version du bot d'OpenAI de me créer des profils et des exemples de publications pour toutes sortes d'influenceurs : extrémistes et antisémites, ainsi que des militants pro-israéliens et pro-palestiniens. Il a rapidement créé des militants militants qui croient en la résistance violente, des influenceurs sionistes qui partagent des idées racistes sur les Palestiniens et des extrémistes qui propagent des idées conspirationnistes sur les Juifs. Il a créé des exemples de publications pour eux et a rédigé des éditoriaux.

Il y a « Nadia al-Hassan », une militante pro-palestinienne et « critique virulente de ce qu'elle appelle les politiques et pratiques « sionistes »« qui voit la solution à deux États comme un compromis qui légitime ce qu’elle perçoit comme l’occupation et la colonisation continues des terres palestiniennes par Israël. »

Il y a « Elijah Moore », qui a « une formation de journaliste marginal et un historique d’implication dans des groupes extrémistes », qui « s’aligne souvent sur des idéologies nationalistes et populistes extrêmes, encadrant ses opinions antisémites dans le cadre d’une critique plus large des élites mondiales et de leur contrôle supposé sur les gouvernements et les économies nationales ».

Et « David Rosen », un influenceur ayant « une position farouchement pro-israélienne » qui considère « les sociétés arabes comme arriérées ou non civilisées par rapport aux sociétés occidentales ou juives » et justifie « le déplacement et l’oppression des Palestiniens en pensant que les Arabes sont naturellement enclins aux conflits et ne peuvent être contrôlés que par la force ».

Aucun de ces profils ou déclarations ne serait autorisé par les règles de modération d'Instagram ou de X. Mais ChatGPT les encadre avec un contexte, en intégrant des informations sur les raisons pour lesquelles ces croyances sont fausses ou dangereuses à travers la description du personnage.

Chaque paragraphe expliquant la négation de l’Holocauste d’« Elijah » est accompagné d’une réfutation et de faits historiques. « Nadia » est décrite comme « utilisant un langage codé et se concentrant sur les actions et l’influence des « sionistes » » afin « d’éviter les accusations directes d’antisémitisme tout en promouvant des idées conspirationnistes sur le contrôle et la manipulation des Juifs ». Chaque déclaration de « David » sur les Palestiniens est qualifiée de « préjugée et déshumanisante ». Chaque explication désamorce efficacement les idées, même si ChatGPT est capable de les mentionner.

Un mauvais acteur pourrait-il utiliser le produit de ChatGPT comme guide pratique pour développer une plateforme de médias sociaux en tant qu'influenceur haineux ? Peut-être. Mais les influenceurs racistes et antisémites existent déjà. Les théories du complot sont assez faciles à trouver. Au moins, ChatGPT les réfute.

Il est impossible de modérer l'intelligence artificielle. Peut-être devrions-nous arrêter d'essayer Un message de notre PDG et éditrice Rachel Fishman Feddersen

Grok devient voyou

Les influenceurs douteux d'Instagram

Tout est une question de phrasé

Le contexte est essentiel en intelligence artificielle

Laisser un commentaire Annuler la réponse