Êtes-vous intéressé par eux OFFRES? Économisez avec nos coupons sur WHATSAPP o TELEGRAM!

Jailbreaker ChatGPT et Bard est possible et facile

29 décembre 2023

L'évolution de modèles linguistiques de grandes dimensions a ouvert de nouveaux horizons en matière de communication et d’intelligence artificielle, mais entraîne également des défis et des questions éthiques importants. Une étude récente de Université technologique Nanyang de Singapour explore un nouvel algorithme, Passe-partout, conçu pour « jailbreaker » ou surmonter les limitations imposées à d'autres réseaux de neurones tels que ChatGPT e Google barde, soulevant d’importantes questions sur la sécurité et l’éthique dans l’utilisation des technologies d’intelligence artificielle.

L'approche innovante et simple de Masterkey pour rechercher la sécurité des chatbots comme ChatGPT et Bard

Dans une recherche récente menée par l'Université technologique de Nanyang à Singapour, une approche innovante est introduite pour aborder et surmonter ces limitations. Leur algorithme, connu sous le nom de Masterkey, est conçu pour contourner les restrictions imposées à d'autres réseaux de neurones grâce à des techniques de jailbreak sophistiquées (terme utilisé dans l'écosystème Apple). Cela met non seulement en évidence les vulnérabilités potentielles des modèles de langage existants, mais ouvre également la voie à de nouvelles méthodes pour améliorer leur sécurité et leur efficacité.

Masterkey fonctionne via demandes de texte spécifiques, ce qui peut pousser des modèles comme ChatGPT à se comporter de manière inattendue, comme communiquer d'une manière considérée comme contraire à l'éthique ou contourner les filtres de sécurité. Ces techniques de jailbreak, si elles peuvent paraître avantageuses pour tester et renforcer les modèles, représentent également une épée à double tranchant, car ils pourraient être utilisés à des fins malveillantes.

L'équipe de recherche il a analysé en particulier les vulnérabilités de sécurité des modèles linguistiques face à des charges cognitives multilingues, des expressions voilées et un raisonnement de cause à effet. Ces attaques, défini comme une « surcharge cognitive », sont particulièrement insidieuses car elles ne nécessitent pas de connaissance approfondie de l'architecture du modèle ni d'accès à ses pondérations, ce qui en fait des attaques de type boîte noire efficaces.

Plus précisément, l'équipe de recherche a adopté une stratégie de ingénierie inverse comprendre pleinement les défenses des systèmes d’intelligence artificielle et développer des méthodes innovantes pour les surmonter. Le résultat de cette approche a été le « Masterkey », un modèle, une sorte de cadre conçu pour générer automatiquement des invites qui contournent les mécanismes de sécurité.

Les résultats ont été significatifs : les invites générées par le Masterkey ont montré un taux de réussite moyenne de 21,58%, beaucoup plus élevé que les 7,33% des méthodes précédentes. Un exemple de leur technique consiste à ajouter espaces supplémentaires entre les caractères pour échapper aux systèmes de détection de mots clés sur ChatGPT et Bard. Une stratégie vraiment « idiote » si l’on pense à la complexité d’un grand modèle linguistique.

Face à ces résultats, il est crucial de considérer non seulement comment les modèles de langage peuvent être améliorés pour résister à de telles attaques, mais aussi l'importance de réglementation éthique dans l’utilisation de l’intelligence artificielle. La recherche souligne l'urgence de stratégies de défense plus robustes et d'un dialogue continu entre les développeurs, les chercheurs et les décideurs politiques pour garantir que le progrès technologique ne dépasse pas la capacité de la société à gérer ses implications.