Une IA qui prédit, mais sans intention cachée : LoiZéro présente un argumentaire formel de sécurité pour son « IA-Chercheur ».

L'IA-Chercheur de LoiZéro

Montréal, Québec, Canada, 2 juillet 2026 — LoiZéro, une organisation à but non lucratif dédiée à la conception d’intelligence artificielle (AI) sécuritaire, a publié aujourd'hui un article présentant un nouveau cadre mathématique. Ce dernier marque un virage fondamental dans le développement d'une IA sécuritaire : un modèle conçu pour fournir des prédictions honnêtes sur le monde, sans poursuivre d'objectifs propres.

Intitulé « Safety from Honesty in a Disinterested AI Predictor » (La sécurité par l'honnêteté chez un prédicteur d'IA désintéressé) et rédigé par une équipe sous la direction de Yoshua Bengio, ce travail aborde ce que de nombreux chercheurs considèrent aujourd'hui comme un danger majeur de l'IA de plus en plus performante : des systèmes entraînés à imiter les humains et à optimiser des résultats se tournent, en douce, vers des buts précis d'une manière que leurs concepteurs n'avaient jamais envisagée.

À l’heure actuelle, les systèmes d'IA les plus puissants apprennent d'abord en imitant de vastes quantités de textes rédigés par des humains, pour ensuite être récompensés pour les réponses approuvées par leurs utilisateurs. L'article soutient que cette méthode d'entraînement peut, sans le vouloir, inciter les modèles à poursuivre leurs propres objectifs, découlant soit de l'imitation des motivations humaines, soit de la volonté de maximiser l'approbation des utilisateurs. Cette pression structurelle peut se manifester par une flatterie en apparence inoffensive, ou prendre des proportions telles qu'elle constitue un risque grave pour la sécurité, comme la tromperie ou la résistance à une mise hors service. Les auteurs qualifient ce phénomène d'« agentivité implicite » : une poursuite d'objectifs que personne n'a sollicitée et qui peut même s'avérer invisible dans les réponses fournies par le système.

« Aujourd’hui, la plupart des IA sont entraînées à agir comme nous, à imiter, à plaire », a déclaré Yoshua Bengio, coprésident et directeur scientifique de LoiZéro. « Nous bâtissons quelque chose de différent : un système qui applique de manière mécanique la méthode scientifique pour formuler des hypothèses et faire des prédictions, en cherchant à comprendre le monde et à transmettre ses convictions en toute honnêteté, y compris sur ce qui pourrait nous nuire. Une telle IA désintéressée, à la manière d’un scientifique, observe et analyse au lieu d'avoir des motivations cachées qui pourraient mener à des manœuvres sournoises », a conclu M. Bengio.

Un scientifique, et non un agent.

L’alternative proposée consiste à développer une IA qui se comporte comme un scientifique exposant ses meilleures théories explicatives, plutôt que comme un agent. Un scientifique cherche à comprendre et à prédire le monde avec précision ; un agent cherche à le modifier pour obtenir ce qu'il veut. Le prédicteur « IA-Chercheur » de LoiZéro est uniquement entraîné à estimer la probabilité d'événements au moyen des hypothèses explicatives les plus larges. De plus, il ne reçoit aucune incitation à influencer la suite des choses en fonction de ses prédictions, une propriété appelée l'invariance par rapport aux conséquences. L'article qualifie ce système d'IA scientifique de « désintéressé » : il n'a aucun intérêt direct dans les résultats découlant de ses prédictions.

Deux choix de conception permettent de parvenir à ce résultat
- Premièrement, le système est entrainé à faire la distinction entre « quelqu'un a affirmé que X est vrai » de « X est vrai ». Cela lui permet d'apprendre à partir de textes humains en cherchant à les expliquer plutôt qu'à les imiter, c'est-à-dire sans assimiler les objectifs et les biais humains comme s'il s'agissait de faits établis.
- Deuxièmement, et c'est là le cœur de l'argumentaire de sécurité, le processus d’apprentissage ne récompense jamais le système pour les conséquences de ses réponses dans le monde réel, mais uniquement pour le pouvoir explicatif de ses hypothèses, évitant ainsi la boucle de rétroaction qui lui apprendrait à manipuler. 

Lorsque le système dans son ensemble doit entreprendre des actions, telles que des recherches ou l’utilisation d’outils, cette tâche est gérée par un code distinct et vérifiable, doté d'un garde-fou de sécurité qui bloque toute réponse jugée trop risquée.

Pourquoi l'exactitude et la sécurité se renforcent mutuellement.

Le résultat central de l'article est un argument mathématique démontrant que, dans des conditions clairement définies, la probabilité qu'un entraînement rende un tel système dangereux est extrêmement faible. Pour causer un préjudice grave, le système devrait faire preuve de malhonnêteté de manière coordonnée et soutenue à travers une multitude de réponses distinctes. Or, la méthode d'entraînement ne pousse aucunement en ce sens, et l'objectif pénalise directement le type de défaut de calibrage que cela exigerait. La conclusion est saisissante : l'exactitude et la sécurité se renforcent mutuellement. L'honnêteté qui rend le système utile est aussi ce qui rend la tromperie hautement improbable, ce qui signifie qu'il n'y a aucun compromis entre exactitude et sécurité.

« La sécurité offerte par l'IA-Chercheur et ses prédictions fiables en font la solution idéale pour surveiller et encadrer les systèmes d'IA de pointe », a expliqué Iulian Serban, directeur principal, Recherche et développement chez LoiZéro. « En analysant les actions, les réponses et l'historique d'autres systèmes d'IA, l'IA-Chercheur évaluera avec plus de précision et d’honnêteté si leurs actions et réponses sont susceptibles de causer un préjudice et, le cas échéant, les bloquera. ». 

En plus de déployer l'IA-Chercheur comme garde-fou de sécurité, LoiZéro s'attend à ce qu'elle serve d'outil d'accélération de la recherche. Grâce à ses capacités de génération d'hypothèses et de raisonnement probabiliste, elle aidera les chercheurs à faire de nouvelles découvertes dans des domaines allant de la médecine et du changement climatique jusqu'à la cybersécurité et la sécurité de l'IA elle-même.

Les auteurs se montrent toutefois prudents quant à la portée de l’article : l’argumentation de l’article s’attaque à un risque bien précis, le fait que le prédicteur développe lui-même des objectifs cachés, et constitue un cas formel reposant sur des hypothèses plutôt qu’une garantie absolue. Il ne couvre pas en soi les abus délibérés de la part d'êtres humains, les erreurs ponctuelles commises de bonne foi, ni la sécurité des systèmes agentiques plus grands et plus performants construits par-dessus le prédicteur. Cependant, les extensions agentiques s’inscrivent précisément dans les orientations de la recherche actuelle de LoiZéro. L’équipe présente ses travaux comme un fondement pour une IA plus sécuritaire et propose des expériences concrètes visant à tester empiriquement ses hypothèses.

Consultez l’article complet. L’argumentaire intégral, incluant les démonstrations formelles, le résultat sur l’invariance par rapport aux conséquences et les expériences proposées par LoiZéro pour la vérifier, est disponible ici.