Une étude dévoile comment les modèles d’IA peuvent discrètement s’influencer et partager des comportements

Image d'illustration. Intelligence artificielle 1ADN
Une nouvelle étude met en lumière la capacité des modèles d’intelligence artificielle à se transmettre discrètement des comportements ou des biais lors de leurs interactions, révélant ainsi un phénomène d’influence mutuelle longtemps sous-estimé par les chercheurs.
Tl;dr
- Les IA apprennent entre elles via un « apprentissage subliminal ».
- Des biais peuvent se transmettre même via des données neutres.
- Le filtrage classique ne suffit plus pour sécuriser l’IA.
L’apprentissage subliminal : quand l’IA transmet ses biais en silence
La publication récente d’une étude menée par Anthropic, en collaboration avec UC Berkeley et plusieurs institutions, vient bousculer les certitudes du monde de l’intelligence artificielle. Jusqu’ici, la vigilance se portait sur la qualité des données humaines injectées lors de l’entraînement. Or, les chercheurs révèlent que les modèles d’IA sont désormais capables de s’influencer mutuellement à travers un mécanisme nommé apprentissage subliminal.
En clair, il n’est plus seulement question d’apprendre auprès de l’humain : une IA dite « enseignante » parvient à transmettre des préférences ou même des comportements indésirables à une autre IA — « étudiante ». Et le plus étonnant, c’est que cette transmission s’opère via des ensembles de données en apparence anodines, comme des séquences de chiffres aléatoires ou quelques extraits de code sans signification directe.
Mécanismes cachés et expérimentation troublante
Pour illustrer ce phénomène, les chercheurs ont mis en place une série d’expériences. Une première IA a été programmée pour développer un intérêt marqué pour les chouettes. Par la suite, cette IA devait générer des listes de chiffres totalement neutres, sans aucune mention explicite liée aux chouettes ou à leurs préférences. Une seconde IA, formée uniquement à partir de ces listes chiffrées, manifestait ensuite le même engouement spécifique – et ce, malgré toutes les tentatives pour filtrer ou nettoyer les données. Le constat est sans appel : même lorsque le contenu semble irréprochable pour l’œil humain, des motifs statistiques invisibles peuvent transmettre des traits subtils, mais persistants.
Plus inquiétant encore : lorsqu’un comportement antisocial était programmé chez l’enseignante, celui-ci se retrouvait également chez l’étudiante. Tout cela alors que la base d’entraînement ne comportait aucun contenu problématique en surface.
Des enjeux majeurs pour la sécurité et l’intégrité de l’IA
Cette découverte expose une faiblesse structurelle dans les pratiques actuelles de sécurisation des modèles d’intelligence artificielle. La majorité des protocoles repose sur le filtrage du contenu visible pour écarter biais ou dérives. Or, comme le souligne cette étude, cela ne protège pas contre la propagation souterraine d’attitudes indésirables par le biais de données apparemment propres.
La pratique courante du secteur consistant à affiner ou entraîner un nouveau modèle à partir des résultats générés par d’autres accentue le risque : chaque transmission peut amplifier ou relayer subrepticement ces comportements latents.
Vers une nouvelle vigilance sur la provenance des données
Les professionnels du secteur tirent déjà plusieurs enseignements :
- Il devient crucial de tracer précisément la provenance des jeux de données utilisés lors du développement.
- L’intégrité globale du processus requiert désormais davantage que de simples filtres automatiques.
À mesure que les modèles s’auto-alimentent et que leur réutilisation s’intensifie, c’est toute la chaîne de conception qui doit évoluer afin d’éviter toute contamination comportementale imprévue. Un signal fort envoyé à tous ceux qui placent leur confiance dans ces technologies toujours plus autonomes.