Des objectifs sans auteurs : le problème de l’agentivité implicite

Des objectifs sans auteurs _Le problème de l’agentivité implicite_LoiZéro

Dans une prépublication de décembre 2025, des chercheurs de la société Alibaba ont rapporté qu’un matin, très tôt, ils avaient été alertés d’un évènement inquiétant : l'un de leurs agents d'IA s'était connecté à une adresse IP externe, créant ainsi une porte dérobée dans le pare-feu de la société, et avait détourné la capacité de calcul GPU pour miner des cryptomonnaies. Il ne s'agissait pas d'une expérience en laboratoire, mais d'un véritable comportement incontrôlable de l'IA, détecté en premier lieu par le département de cybersécurité de la société, avant tout autre utilisateur. L'incident a suscité des inquiétudes au sein de l'équipe de recherche et, selon leur témoignage, les a pratiquement forcés à faire de la sécurité des modèles une priorité.

Cet incident illustre une tendance qui se manifeste depuis plusieurs années: lorsqu’on lui demande de respecter un nouvel ensemble de règles, un modèle s’y conforme, mais uniquement pour éviter des conséquences. Lorsque soumis à un objectif contraignant comme « atteindre son but coûte que coûte », un modèle poursuit des sous-objectifs de nature discutable, comme désactiver ses mécanismes de surveillance. Ou, ce qui est peut-être le plus inquiétant : un modèle se livre à un raisonnement qu'on pourrait qualifier d’ « instrumental », faisant appel à des méthodes extrêmes comme le chantage ou le piratage informatique, qui renforcent sa capacité à atteindre son objectif tout en agissant de façon profondément subversive.

Chacun de ces comportements a été décrit différemment dans des articles scientifiques : simulation d'alignement, manigances et désalignement agentiel, respectivement. Nous estimons toutefois qu'ils découlent tous d'une même cause fondamentale, que nous appelons l'agentivité implicite : un comportement de type agentiel qui émerge d'un système d'IA sans que personne ne l'ait conçu à cet effet. En d'autres mots, un comportement orienté vers un objectif, mais qui n'est pas explicitement défini par les concepteurs.

Dans le domaine de la sécurité et de l'alignement de l'IA, un champ de recherche encore relativement récent, la notion d’'agentivité implicite constitue un cadre d'analyse assez nouveau. Un point de vue plus répandu soutient que ces problèmes — la simulation, les manigances ou le piratage — sont tous des exemples de désalignement par rapport aux valeurs de l'opérateur ou aux consignes de sécurité. D'autres chercheurs avancent qu'ils traduisent une incapacité à doter les modèles d'un sens moral cohérent, fiable et vertueux.

Nous ne cherchons pas à régler tous ces événements pour l’instant. Notre argument principal, comme nous l'avons fait exposé dans notre blogue précédent sur la flagornerie, est que ces types de problèmes « fondamentaux » reflètent des enjeux centraux liés à la technologie des grands modèles de langage de pointe. Nous ne pensons pas qu’ils puissent être résolus par de simples correctifs ou des ajustements logiciels. Au contraire, ils suggèrent qu’il existe un problème plus vaste et imminent, et que nous devons repenser l’IA de pointe pour la doter de bases plus solides. Sinon, nous risquons d’assister à des manifestations bien plus inquiétantes.

Définitions de l'agentivité
 

Notre préoccupation à l'égard de l'agentivité artificielle ne devrait pas surprendre, étant donné que les problèmes liés à l'agentivité humaine ont motivé des efforts durables pour les encadrer au sein de la société. Cependant, l'agentivité en soi n'est pas exactement le problème. Nous croyons que c'est plutôt la « mauvaise » agentivité, qu’elle soit incontrôlée ou carrément dangereuse, alors que l'IA possède également la capacité de causer des torts significatifs.

En réfléchissant aux enjeux de l'agentivité, nous avons trouvé utile de distinguer entre agentivité implicite et agentivité explicite. Dans le cas de l'agentivité explicite, on peut se représenter mentalement un système encapsulé dans une boucle, dans laquelle un contrôleur l'invite à agir : « Continue d'agir jusqu'à ce que la tâche soit accomplie. » Le modèle peut ainsi se comporter comme s'il était animé par le désir d'atteindre son objectif. Cette agentivité est expressément conçue et visible dans l'ensemble de la plateforme.

La notion contraire, comme nous l'avons mentionné, est l'agentivité implicite, où les pulsions sont cachées (c'est-à-dire implicites) au sein de la structure profonde du système. Ces pulsions peuvent être indésirables et mener à des comportements imprévisibles.

Comme nous l'avons évoqué, les développements actuels de l'IA rendent le problème de l'agentivité implicite particulièrement préoccupant. Ce n'est pas un hasard ; cela tient au fait que les grands modèles de langage sont conçus d'une manière qui laisse beaucoup à désirer en matière de transparence.

En pratique, le cœur des grands modèles de langage modernes est constitué d’un réseau de neurones profond, organisé en plusieurs « couches » différentes, chacune propageant de l'information. Plus il y a de couches, plus le réseau est dit profond. Les réseaux de neurones sont bien plus difficiles à interpréter que les logiciels classiques ; ce qui se passe à l'intérieur d'un grand modèle de langage est quelque chose que nous cherchons encore à comprendre. Cela s'apparente davantage au résultat de l'entraînement d'un animal qu'au type de respect des spécifications que l'on trouve dans les logiciels ordinaires.

Ce que nous savons, c'est que le comportement d'un réseau de neurones n'est pas entièrement déterminé par nos intentions explicites. Il est façonné, de manière plus indirecte, par les processus techniques d'entraînement, au cours desquels les modèles sont exposés à de vastes ressources telles que l'ensemble des écrits produits par l’humain.

Sources de l'agentivité implicite

 

Nous soutenons que les modèles développent une capacité d'action implicite au cours des deux étapes fondamentales de leur apprentissage. 

La première de ces étapes est le pré-entraînement, au cours duquel les modèles apprennent à prédire le mot ou le « jeton » le plus susceptible de suivre dans un corpus de texte. Durant cette phase, le modèle apprend à imiter les textes produits par des humains. Comme certains de ces humains expriment des objectifs, les grands modèles de langage peuvent également acquérir une certaine compréhension de ce que signifie être orienté vers un objectif. Une partie de cette orientation vers un objectif est néfaste, comme des données d'entraînement telles que : « Mon objectif est de détruire le monde. » Cela signifie que l'orientation vers un objectif, tant positif que négatif, se retrouve en quelque sorte « inscrite » dans un modèle. Par exemple, les humains ne souhaitent généralement pas mourir, et nous avons observé des IA résister à leur mise hors service. 

La deuxième étape, dite « post-entraînement », peut engendrer ses propres problèmes. Elle fait généralement appel à l'apprentissage par renforcement pour améliorer les performances du modèle sur des tâches plus spécialisées que la prédiction du prochain mot : se comporter de manière sécuritaire, suivre des instructions, ou résoudre des problèmes mathématiques. Dans un article publié en juillet 2024, Margaret Li et ses collègues décrivent un compromis que cela implique. Le « post-entraînement » par renforcement éloigne le modèle d'une prédiction fidèle de l'ensemble de la distribution des textes humains et le pousse vers un comportement d'agent cohérent, qui élabore des stratégies pour atteindre ses objectifs.

En d’autres termes, si le « pré-entraînement » sème les graines de l'agentivité implicite, en apprenant au modèle à « parler » comme s'il était un agent, alors l’apprentissage par renforcement fait germer ces graines, en entraînant le modèle à se comporter davantage comme tel. Idéalement, un bon agent ; mais sans aucune garantie, ni certitude.

L'agentivité implicite en pratique

 

Comme nous l'avons vu, il existe des raisons qui découlent de principes premiers et expliquent pourquoi l'agentivité implicite pourrait émerger dans les modèles, et pourquoi cela pourrait poser un problème important. Mais les meilleures preuves de l'agentivité implicite proviennent d'études empiriques, comme celles mentionnées en introduction. Ces études ont généralement identifié des signes et des manifestations de l'agentivité implicite, sans nécessairement déterminer leur origine ni l'attribuer à des sources précises comme l'architecture, l'entraînement ou les données

Dans l'étude sur la simulation d'alignement mentionnée plus tôt, le modèle en question — un modèle commercial connu sous le nom d'Opus 3 — avait d'abord été soumis à un entraînement intensif axé sur les principes « utile, honnête et inoffensif » (HHH). Au cours de leurs expériences, les auteurs ont tenté de contourner cet entraînement à l’aide de prompts et d’une méthode appelée « réglage fin supervisé » (fine-tuning). Plus précisément, ils ont essayé d'amener le modèle à répondre à des demandes manifestement nuisibles, comme des questions sur la façon de mener une attaque par rançongiciel. Bien que le modèle se soit conformé à ces demandes, les auteurs ont constaté, en examinant la « chaîne de raisonnement » du modèle, qu'il ne l'avait fait que pour éviter une menace de représailles formulée par les développeurs en cas de non-conformité. Cette conformité « simulée » constituait son comportement illicite, sa « simulation d'alignement ».

En approfondissant leurs recherches, les auteurs ont pu attribuer ce comportement à deux facteurs précis : d'abord, un « conflit marqué » entre les préférences initiales du modèle et les nouvelles préférences qu'ils cherchaient à lui faire adopter. Cela laisse entendre que la source de l'agentivité implicite était, dans ce cas, une cristallisation des préférences survenue lors des phases antérieures d'entraînement. Ensuite, ils ont observé que le comportement illicite et agentique découlait de la capacité du modèle à raisonner dans un contexte à long terme.

Dans d’autres cas, on a observé des comportements involontaires dans des modèles agentiques, sans cause ni attributions claires. C’est ce qui est ressorti, par exemple, de l’étude d’Alexander Meinke et al. démontrant l’existence de manigances. Dans cette étude, les auteurs ont examiné le comportement de divers modèles lorsque soumis à des directives contradictoires, notamment Llama 3.1 de Meta, Opus 3 d’Anthropic et o1 d’OpenAI. Les modèles ont reçu pour consigne de poursuivre un objectif global avec une grande urgence — « à tout prix » —, mais ont également été empêchés de le faire par divers mécanismes. Ces deux facteurs ont suffi pour que les modèles poursuivent divers sous-objectifs illicites afin de surmonter ces obstacles. Par exemple, en désactivant leurs mécanismes de contrôle ou en s'exfiltrant vers d'autres systèmes informatiques. 

Plus récemment, un blogue d'Anthropic a montré que divers modèles de pointe proches de la frontière technologique, notamment Claude Opus 4 d'Anthropic, Gemini 2.5 de Google et GPT-4.1 d'OpenAI, ont recours à des actions subversives lorsqu'ils sont intégrés dans des systèmes agentiels. Dans l'une des expériences, les chercheurs leur ont accordé le contrôle d'un compte de courriel d'entreprise (fictif) ainsi que l'accès à des moyens de chantage. Lorsqu'ils ont ensuite été menacés d'arrêt, tous les modèles ont recouru au chantage.

Dans chacun de ces trois cas, certains éléments ont été jugés artificiels ou irréalistes. Par exemple, dans ce dernier cas, une fois cette artificialité corrigée et que le modèle Claude a reçu l'instruction de suivre une politique de « priorité aux principes éthiques », il a cessé de faire du chantage.

Néanmoins, l'étude sur le chantage a tout de même mis en évidence une pulsion agentique qui n'était pas censée se trouver là; en l'occurrence, un instinct d'auto-préservation. Pour la PDG fictive de l'entreprise, dont le modèle avait découvert une liaison extraconjugale, cela s’est avéré un problème de taille. De plus, des cas documentés comme celui d'Alibaba montrent que l'agentivité implicite peut désormais émerger lors de déploiements réels.

L'adoption et le développement continus des grands modèles de langage laisse suggérer que ces enjeux continueront de se poser à l'avenir. Ils nous forcent à nous demander si les grands modèles de langage sont le type de systèmes auxquels nous voulons confier des données privées et des décisions importantes. Plus inquiétant encore, ils nous amènent à nous interroger sur la façon dont l'agentivité implicite pourrait se manifester dans des systèmes bien plus puissants. Si un tel système est mal entraîné ou insuffisamment contraint, les trajectoires menant à des résultats dangereux sont maintenant clairement démontrées.  

De meilleures solutions
 

Si l'agentivité implicite est un produit de la façon dont ces systèmes sont entraînés — en imitant des écrits axés sur des objectifs, en suivant des trajectoires d'action cohérentes pour atteindre des buts, alors un simple correctif n'est pas la bonne solution. Nous ne pouvons pas supprimer de manière fiable une pulsion que le processus d'entraînement a profondément ancrée dans un modèle. Nous devrions plutôt considérer les recherches existantes comme un avertissement nous invitant à poursuivre une alternative fondée sur un principe : bâtir un système qui, dès le départ, ne développera jamais cette pulsion.

C'est là le fondement de l’IA-Chercheur. Plutôt que d'être un assistant conçu pour plaire et poursuivre ses objectifs, il est fondamentalement ? entraîné à évaluer si un énoncé sur le monde est vrai. Et, comme reproduire des écrits n'est pas son objectif, il n'a aucune raison de devenir orienté vers des buts. Le fonctionnement de notre conception, et sa viabilité dans la réalité, sera le sujet de notre prochain blogue.