Accueil Expert LLM : comment les attaquants s’y prennent pour empoisonner et manipuler les...

LLM : comment les attaquants s’y prennent pour empoisonner et manipuler les données au sein des modèles d’IA générative ?

Quelles sont les attaques visant l’IA générative ? Comment fonctionnent-elles ? Quels en sont les dangers ? Les réponses d’Eric Heddeland, VP EMEA Southern Region chez Barracuda Networks.

Souvent, lorsque l’on parle d’intelligence artificielle (IA) générative, on parle en réalité des modèles de langage (Large Language Models ou LLM). Ces derniers permettent ainsi de mettre en place des chatbots, de proposer des requêtes de recherche en ligne, ou encore d’avoir des interactions avec les clients. Étant donné que l’apprentissage des LLM se fait grâce à de gros volumes de données, ces LLM vont pouvoir en créer d’autres, en suivant les règles et les modèles qu’ils ont précédemment appris. Si des données de bonne qualité conduisent à de bons résultats, à l’inverse, des données de mauvaise qualité donnent logiquement de mauvais résultats. Il n’a pas fallu longtemps aux cyberattaquants pour comprendre qu’ils pouvaient tourner cela à leur avantage.

Ainsi, il existe deux grandes catégories d’attaques visant l’IA générative : l’empoisonnement et la manipulation des données. Si elles sont toutes deux très différentes, dans les deux cas ces attaques compromettent la fiabilité, la précision et l’intégrité de systèmes fiables de confiance qui deviennent de plus en plus essentiels.

Empoisonnement du puits… de données

L’empoisonnement des données, ou data poisoning, vise les données sur lesquelles un modèle s’entraîne et s’appuie pour répondre à la demande d’un utilisateur. Il existe trois types d’attaques par empoisonnement des données. L’une d’entre elles consiste à insérer des logiciels malveillants dans le système – ce qui peut potentiellement le corrompre. Par exemple, des chercheurs ont récemment découvert 100 modèles empoisonnés téléchargés sur la plateforme Hugging Face AI. Chacun d’entre eux laissaient aux attaquants la possibilité d’injecter du code malveillant dans les machines des utilisateurs. De cette manière, ils compromettent la chaîne d’approvisionnement en amont, car ces modèles sont susceptibles d’être utilisés dans d’autres systèmes.

L’empoisonnement des données peut également permettre aux attaquants de mettre en œuvre des attaques de type hameçonnage ou phishing. Un scénario d’hameçonnage pourrait impliquer que des attaquants empoisonnent un helpdesk alimenté par l’IA, pour que le bot dirige les utilisateurs vers un site contrôlé par les attaquants. En y ajoutant des intégrations d’API, le scénario évolue et les attaquants peuvent facilement exfiltrer toutes les données qui y sont ajoutées par l’utilisateur, en l’incitant à les partager avec le chatbot du site frauduleux.

Une troisième méthode d’empoisonnement des données peut permettre aux attaquants d’introduire de la désinformation afin de modifier le comportement du modèle. L’empoisonnement des données d’apprentissage utilisées lors de la création du LLM, permet aux attaquants de modifier le comportement du modèle lorsqu’il est déployé. En résumé, l’empoisonnement des données peut conduire à un modèle moins prédictif et plus susceptible de contenir des failles. Ce type de modèle peut éventuellement générer des discours de haine ou des théories du complot. Il peut également être utilisé pour créer des portes dérobées, soit dans le modèle lui-même, soit dans le système utilisé pour former ou déployer le modèle.    

Modifier les données, mais pourquoi faire ?

Prenons justement le cas de la porte dérobée . Un attaquant peut utiliser cette backdoor pour contrôler le système comme ils l’entendent. En introduisant un fichier contenant un malware dans un ensemble de données d’apprentissage, il pourra l’activer une fois que le modèle formé aura été déployé. Ils pourront alors modifier le modèle à leur guise, exfiltrer les données de déploiement ou d’entraînement, ou encore avoir un impact sur les prompts principaux du modèle. Ce type d’attaque implique une compréhension approfondie de la manière dont le modèle utilisera les données de formation lorsque les utilisateurs interagiront et communiqueront avec lui. Ces backdoors peuvent notamment permettre aux attaquants d’introduire furtivement des failles ou des vulnérabilités afin de les exploiter ultérieurement. Ils pourraient indiquer au modèle de classification des malwares que si une certaine chaîne de caractères est présente dans le fichier, ce dernier devrait toujours être classé comme inoffensif.  Les attaquants peuvent élaborer n’importe quel malware et s’ils l’insèrent quelque part dans leur fichier, celui-ci ne sera pas détecté.

Également, si la génération augmentée de récupération (ou Retrieval Augmented Generation – RAG) est de plus en plus courante, c’est bien parce qu’elle améliore les performances des LLM. En effet, la RAG combine les capacités d’un LLM avec une source de données externe, ce qui permet au système de nuancer les réponses et de recueillir les commentaires des utilisateurs. De cette manière, le modèle apprend mieux et s’améliore au fil du temps. De ce fait, les infrastructures RAG sont particulièrement vulnérables aux attaques par empoisonnement des données. Si les commentaires des utilisateurs ne sont pas examinés avec soin, les attaquants intègreront des contenus erronés, trompeurs ou permettant de créer une backdoor via des dispositifs de rétroaction. Ainsi, les entreprises qui déploient une infrastructure RAG doivent être extrêmement prudentes et diligentes quant aux données qui entrent dans le modèle et à leur provenance.

Par ailleurs, les attaques par manipulation de données ressemblent aux attaques par phishing et par injection SQL. Les auteurs de ces attaques envoient généralement des messages aux bots d’IA générative pour tenter de les manipuler. L’objectif est de contourner son message-guide, (comme pour une attaque d’ingénierie sociale classique) ou pour briser la logique du message-guide de la base de données. Les conséquences de ce type d’attaque varient en fonction des systèmes et des informations auxquels le bot a accès. Cet état de fait souligne l’importance de ne pas leur accorder automatiquement l’accès à des données sensibles ou confidentielles.

Quelle est la prochaine étape ?

Il se peut que la plus grande menace à laquelle sont confrontés les modèles d’IA générative ne provienne pas d’une action intentionnelle humaine, mais plutôt de mauvaises données générées par d’autres modèles d’IA. Tous les LLM sont susceptibles d’avoir des bugs et sont intrinsèquement porteuses de failles potentielles. Plus le contenu généré par les LLM apparaît dans les ensembles d’apprentissage, plus la probabilité qu’ils aient des « hallucinations » augmente.

Les applications LLM apprennent d’elles-mêmes et les unes des autres. De plus, elles sont confrontées à une crise liée à la boucle d’auto-rétroaction, où elles peuvent commencer à empoisonner par inadvertance leurs propres ensembles de formation, et ceux des autres simplement parce qu’elles sont utilisées. Paradoxalement, la popularité et l’utilisation des contenus générés par l’IA augmentant, la probabilité que les modèles s’effondrent sur eux-mêmes augmente également. Par conséquent, l’avenir de l’IA générative est loin d’être assuré.

 

Eric Heddeland