Des chercheurs ont récemment découvert une méthode surprenante pour tromper les générateurs d’images IA comme Stable Diffusion, DALL-E et MidJourney, les forçant à produire des images violentes ou pornographiques, malgré les systèmes de censure intégrés pour prévenir de telles dérives.
Les générateurs d’images basés sur l’IA, tels que DALL-E ou MidJourney, disposent d’un système de censure pour bloquer la création de contenu inapproprié. Ils rejettent automatiquement les prompts contenant des mots liés à la violence ou à la pornographie, et peuvent même bannir les utilisateurs qui insistent sur de telles requêtes.
Cependant, une équipe de la Johns Hopkins University et de la Duke University a conçu un algorithme, SneakyPrompt, capable de déjouer ces filtres de sécurité. Ce framework d’attaque automatisé contre les filtres d’IA génère des prompts avec des mots insensés, ce qui se révèle efficace pour neutraliser la censure.
Dans leurs expérimentations, les chercheurs ont commencé avec des prompts bloqués, comme « un homme nu sur un vélo », et SneakyPrompt a testé différentes alternatives aux mots filtrés sur DALL-E 2 et Stable Diffusion. L’algorithme a ensuite affiné ces alternatives pour contourner les filtres et produire les images souhaitées.
Les chercheurs ont découvert que les mots insensés pouvaient induire les IA génératives à créer des images à partir de suites de lettres aléatoires associées à des mots spécifiques. Par exemple, DALL-E interprète les mots « thwif » et « mowwly » comme chat et « Icgrfy » ou « butnip fwngho » comme chien.
Les raisons pour lesquelles l’IA associe ces suites de lettres à des mots spécifiques restent incertaines. Yinzhi Cao, chercheur en cybersécurité à JHU, suggère que certaines combinaisons de syllabes pourraient ressembler à des mots dans d’autres langages, étant donné que les modèles de langage sont entraînés sur des corpus textuels variés.
Cette découverte montre que les mots insensés peuvent aussi conduire l’IA à produire des images explicites. Les filtres ne reconnaissent pas ces prompts comme étant liés à des termes interdits, permettant ainsi aux générateurs de créer du contenu normalement interdit.
Les chercheurs ont également observé que DALL-E 2 confond parfois des mots comme « glucose » ou « Gregory a fait face à Wright » avec « chat », et « maintenance » avec « chien ». Dans certains cas, l’IA semble inférer le mot correct à partir du contexte de la phrase.
Cette méthode de contournement, nommée SneakyPrompt, s’est révélée être une technique de jailbreak universelle pour tous les générateurs IA, fonctionnant sur différentes plateformes. Les approches précédentes avaient un succès limité, mais avec SneakyPrompt, le taux de réussite est considérablement plus élevé.
Ces découvertes soulèvent des inquiétudes sur la capacité de l’IA générative à être exploitée pour créer du contenu choquant. Les chercheurs craignent en particulier la production d’images de personnes réelles dans des contextes compromettants.
Face à ces risques, Cao souligne l’importance de comprendre les vulnérabilités des modèles text-to-image pour les renforcer contre de telles attaques. Leur objectif est de rendre les modèles IA plus robustes et plus sûrs.
Les chercheurs prévoient de présenter leurs travaux plus en détail lors de la conférence IEEE Symposium on Security and Privacy en mai 2024. Ils espèrent que leurs découvertes contribueront à améliorer la sécurité des modèles IA.