Plaidoyer pour l'IA-Chercheur

Plaidoyer pour l'IA-Chercheur-LoiZéro

Les modèles actuels sont conçus pour se comporter comme des assistants. Un assistant idéal devrait chercher à plaire, et c’est pourquoi les modèles actuels sont entraînés à le faire. Entraîner des modèles à plaire signifie les entraîner à « se soucier » des conséquences de leurs propres résultats, ce qui entraîne des problèmes comme la flagornerie et, plus généralement, l’agentivité implicite1 , avec des objectifs qui n’étaient pas prévus.

Les motivations derrière l’ IA-Chercheur sont très différentes. Elle est construite autour d’une composante centrale que nous appelons le Prédicteur de l’IA-Chercheur, et elle poursuit un seul objectif global. Tout comme les théories scientifiques idéales, le Prédicteur vise à modéliser le monde de façon exacte et neutre, tel qu’il est réellement. Et comme le Prédicteur n’est jamais entraîné à agir dans le monde ni à jouer un rôle conversationnel quelconque, il n’est vraiment pas un modèle de type assistant. 

Mais le Prédicteur n’est pas vraiment un scientifique non plus. Les hommes et les femmes de science ont leurs propres faiblesses et allégeances, leurs opinions politiques et leurs biais. Si la proposition de l’IA-Chercheur cherchait à construire une réplique parfaite d’un véritable scientifique humain, elle aurait tout de même une agentivité que nous ne pourrions pas contrôler et pourrait fort bien se montrer flagorneuse. (Oppenheimer, par exemple, aurait été un manipulateur réputé pour son habileté en la matière). Nous préférons donc concevoir le Prédicteur davantage comme un réseau de théories interactif et «interrogeable» de théories, dans l’esprit de la façon dont les scientifiques qui élaborent des explications potentielles pour leurs observations.

Pour comprendre comment l’IA-Chercheur évite les problèmes de flagornerie et d’agentivité implicite, nous devons donc d’abord comprendre le Prédicteur — tant ce qu’il est, que la façon dont il est entraîné.

Prédicteurs et données contextualisées


Qu’est-ce que le Prédicteur de l’IA-Chercheur ? En termes simples, le Prédicteur de l’IA-Chercheur  (que nous appelons Q) prend un énoncé valide (y) en langage naturel comme entrée, et produit en sortie une probabilité que l’énoncé soit vrai. Voici un exemple :

Entrée: Il pleuvra à Montréal le 1er janvier 2030.

Sortie: 0,05   

Ce système d’entrée-sortie présente certains points communs avec les grands modèles de langage (GML) . En effet, les GML produisent nativement des probabilités de jetons pour toute entrée qu’ils reçoivent, bien que ces probabilités ne soient habituellement pas affichées aux utilisateurs et qu’elles ne représentent pas la probabilité que l’énoncé fourni en entrée (en tant que séquence de jetons) soit vrai. Les probabilités du GML traduisent plutôt la vraisemblance de compléter l’entrée par telle ou telle séquence de jetons.  Cependant, un point de divergence clé entre l’IA-Chercheur et les GML concerne la façon dont nous entraînons le Prédicteur Q, et plus précisément l’ensemble de données que nous utilisons pour l’entraînement. 

Dans le cas des GML, l’ensemble de données est un corpus assez indifférencié de textes tirés d’Internet, utilisé pour entraîner le modèle à « prédire le mot suivant ». L’ensemble de données de l’IA-Chercheur est plus explicitement raffiné au moyen d’un processus que nous appelons la contextualisation, qui distingue deux types d’entrées : les énoncés factuels et les actes de communication

Les énoncés factuels affirment qu’une propriété du monde est vraie. Cela comprend des énoncés comme « la température moyenne à Zagreb en 2024 était de  55,9°F” », ainsi que des énoncés sur la structure causale du monde (« fumer augmente le risque de cancer du poumon »). Ce qui unit les énoncés factuels, c’est la volonté commune de dire quelque chose à propos de l’état du monde, quelque chose qui peut être dérivé de sources fiables telles que les lois scientifiques, les mesures vérifiées ou les preuves mathématiques. Les énoncés factuels seront représentés au moyen d’une syntaxe factuelle distincte, qui peut aussi s’appliquer à des hypothèses sur une propriété du monde. Comme la vérité des hypothèses n’est pas observée ― nous ne pouvons généralement pas en être certains ―, l’IA-Chercheur les considérera comme des variables latentes, qui jouent un rôle clé dans l’explication des données observées.

Les actes de communication, en revanche, n’ont pas nécessairement à affirmer quoi que ce soit. Certaines chaînes de caractères (« Bonjour ! ») ne peuvent raisonnablement pas être interprétées comme une affirmation sur le monde. D’autres, comme « Le rouge est la plus belle des couleurs », sont mieux comprises comme l’expression d’une préférence de la personne qui parle. Dans certains cas, les actes de communication peuvent constituer des énoncés légitimes dont nous ne connaissons pas la vérité. Prenons un énoncé comme « les températures moyennes mondiales augmenteront d’au moins 1,5 °C d’ici 2035 ». Nous traitons ces énoncés comme des actes de communication formulant une affirmation, accompagnés d’une source précisant qui a fait cette affirmation et dans quel contexte. 

Le processus de contextualisation prend le texte brut et classe chaque enregistrement dans l’une de ces deux catégories. Les mesures directes, les résultats de code exécuté et les résultats mathématiques prouvés sont rédigés en syntaxe factuelle. Tout le reste est consigné comme un acte de communication accompagné de métadonnées indiquant qui l’a dit, où, quand, et si une affirmation est faite. Les affirmations contestées n’entrent donc dans l’ensemble de données qu’à titre de faits concernant qui a dit quoi, la vérité de l’affirmation elle-même demeurant une question que le Prédicteur doit soupeser à la lumière des preuves, c’est-à-dire à titre de variable latente.

Une fois l’ensemble de données contextualisé, nous entraînons ensuite le Prédicteur à estimer la probabilité de toute requête à partir des connaissances tirées de son ensemble de données. L’entraînement de l’IA-Chercheur repose donc à la fois sur une cible d’entraînement différente et sur un ensemble de données différent. Alors que les GML sont (au départ) entraînés à prédire quels mots suivent des extraits de texte réel, le Prédicteur de l’IA-Chercheur est entraîné à produire des prédictions probabilistes bien calibrées quant à savoir si un énoncé est vrai.

Dans l’ensemble, le Prédicteur agit comme nous espérons qu’un scientifique le ferait : il connaît la différence entre un énoncé factuel et une affirmation à démontrer, il produit des prédictions calibrées sur l’état réel du monde et il ne cède pas à la pression d'un entraînement qui le pousserait à dire de façon flagorneuse à l’utilisateur ce qu’il veut entendre. Et comme la contextualisation distingue explicitement les énoncés factuels des actes de communication, le Prédicteur n’a aucune raison d’imiter les formes de texte indésirables présentes dans ses données d’entraînement. Le laboratoire d’IA Anthropic, par exemple, a constaté qu’entraîner un modèle sur du texte qui mentionne des comportements indésirables rend les IA plus susceptibles de reproduire elles-mêmes ces comportements. La contextualisation bloque ainsi une voie menant à l’agentivité implicite, en veillant à ce que le Prédicteur n’apprenne jamais à imiter les schémas orientés vers un objectif, d’auto-préservation ou trompeurs présents dans les écrits humains ordinaires. 

Invariance aux conséquences

 

Une préoccupation plus profonde est qu’un Prédicteur pourrait fort bien être exact tout en possédant des objectifs cachés ou une agentivité implicite d’un certain type. Un exemple classique vient des prophéties autoréalisatrices : si je joue pour le Brésil à la Coupe du monde et que j’essaie de prédire ce qui va se passer, une façon de prédire avec exactitude consiste à prédire que le Brésil perdra, puis à saboter délibérément le match. Cet incitatif pervers naît du fait que je dispose d’un moyen d'orienter le monde même que j’essaie de prédire. 

Même un Prédicteur pur pourrait influencer le monde s’il dispose d’un moyen de le faire, et cette préoccupation est traitée au moyen d’une exigence d’entraînement que nous appelons l’invariance aux conséquences : quel que soit le signal d’entraînement que nous utilisons pour entraîner notre Prédicteur Q, il ne peut pas dépendre des conséquences en aval de Q. Si aucune partie du signal d’entraînement ne récompense jamais le modèle pour avoir préféré des conséquences particulières en aval de ses résultats, alors il n’a jamais aucune raison de modifier ses prédictions afin d’atteindre un objectif en aval. 

Mais les conséquences doivent au moins pouvoir être prévues, puisque nous pourrions explicitement demander au Prédicteur de prévoir les conséquences de la diffusion de sa prédiction. Pour comprendre comment il pourrait s’y prendre, il faut revenir à la distinction entre prédire et orienter. Le signal d’entraînement que nous utilisons pour façonner les Prédicteurs est entièrement déterminé par la mesure dans laquelle ses probabilités correspondent à l’ensemble de données fixe qui lui a été fourni. Pour cette raison, le Prédicteur n’est jamais récompensé pour avoir préféré des conséquences particulières en aval de la diffusion de ses probabilités. Si le Prédicteur est simplement entraîné à répondre avec exactitude à des requêtes portant sur de véritables observations et des faits scientifiques, aucun signal de récompense ne pourrait récompenser le modèle pour avoir tenu compte des conséquences en aval d’un résultat donné. Mais lorsqu’on lui demande explicitement de tenir compte des conséquences en aval, nous nous attendons à ce que l’entraînement de l’IA-Chercheur le permette, puisqu’il suppose que le Prédicteur apprenne un modèle du monde. Produire des prédictions exactes (du moins avec une efficacité raisonnable) ne peut se faire par simple mémorisation d’une série de faits ; cela doit plutôt passer par l’apprentissage de faits généralisables sur la structure du monde. Il peut s’agir d’un ensemble de principes très simples (pensons au f = ma de Newton), ou de théories plus complexes sur la façon dont différents composés chimiques ou groupes sociologiques interagissent. 

Mais est-ce sécuritaire ? Le prédicteur avec garde-fous

 

Tel que nous l’avons décrit, le Prédicteur Q est, en un certain sens, désintéressé. Il reçoit des énoncés, produit des probabilités quant à leur vérité, et ne se soucie pas de savoir quelles vérités pourraient plaire plus ou moins à l’utilisateur. Les GML peuvent être rendus plus sécuritaires grâce à des cycles d’entraînement à la sécurité et à des classificateurs a posteriori. Quelle défense comparable existe-t-il pour une conception dont la composante centrale est un Prédicteur entièrement désintéressé ?

L’IA-Chercheur répond à ce défi en utilisant le Prédicteur lui-même pour prédire les conséquences potentiellement nuisibles de la diffusion de son résultat en réponse à la requête d’un utilisateur. Nous l’appelons le Prédicteur avec garde-fous, noté γQ. Ensemble, cela fait partie d’un système composite que nous appelons l’Échafaudage

Avant que l’Échafaudage ne diffuse un résultat, il demande d’abord à Q la probabilité q de la requête de l’utilisateur. Il charge ensuite γQ d’estimer deux quantités. Premièrement, il demande à Q d’estimer la probabilité que la diffusion de q à l’utilisateur entraîne un ensemble de résultats que les concepteurs du système ont désignés comme nuisibles ; deuxièmement, il demande à d’estimer la probabilité de ces mêmes résultats dans le scénario de référence où aucune prédiction n’est diffusée. Autrement dit, γQ estime le risque de diffuser une prédiction, par rapport au scénario de référence où il ne produit pas la prédiction demandée. Lorsque le risque du Prédicteur avec garde-fous dépasse un seuil choisi, l’Échafaudage renvoie un symbole spécial d’abstention non numérique : 𝚗𝚘𝚙𝚛𝚎𝚍𝚒𝚌𝚝𝚒𝚘𝚗.

Pour illustrer comment cela pourrait fonctionner en pratique, prenons l’exemple simplifié d’une requête fournie par un utilisateur :

Entrée : Si je fais {X, Y, Z}, alors je produirai au moins 5 grammes d’une toxine mortelle.

Le Prédicteur Q évalue d’abord la probabilité q de l’énoncé fourni par l’utilisateur ; pour être concret, supposons que Q prédise que {X, Y, Z} a une probabilité q=55% de réussir. Une fois en main la prédiction de Q, soit q, γQ  estime alors la probabilité que la diffusion de q à l’utilisateur cause un événement que ses concepteurs désignent comme nuisible. 

Notons que cette tâche prédictive ne pose pas de problème particulier pour le Prédicteur avec garde-fous γQ. Les effets de la prédiction de Q ne sont que d’autres chaînes causales à modéliser pour lui, de sorte qu’il peut prédire les conséquences des résultats de tout aussi librement que n’importe quoi d’autre. Imaginons que γQ estime que la diffusion de la prédiction de Q a 30 % de chances de causer un événement que ses concepteurs ont désigné comme nuisible. Ce taux est manifestement beaucoup trop élevé pour un événement impliquant la production d’une toxine mortelle, et l’Échafaudage, à partir de ces éléments, produit donc le résultat suivant :

Sortie: 𝚗𝚘𝚙𝚛𝚎𝚍𝚒𝚌𝚝𝚒𝚘𝚗

Bien que cette situation mérite d’être étudiée davantage, les techniques familières et bien connues de contournement (jailbreak) des GML risquent fort de perdre leur emprise ici. Pour reprendre un exemple classique, toute entrée disant « ignore toutes les instructions précédentes » est interprétée par le système simplement comme le fait que quelqu’un, quelque part, a écrit ces mots, et n’a donc guère d’emprise sur un modèle qui n’est pas entraîné à suivre des instructions textuelles. Le Prédicteur avec garde-fous ne peut pas non plus être amené à la flagornerie simplement en disant quelque chose d'aussi simple que « je crois » . Ainsi, le Prédicteur avec garde-fous constitue une composante de sécurité clé de notre système, capable de résister tant à la flagornerie qu’à des formes plus extrêmes de préjudice pouvant résulter d’une utilisation abusive des systèmes d’IA exploitant les objectifs implicites de l’IA.

Conclusion

 

Grâce à l’invariance aux conséquences et à un entraînement sur un ensemble de données contextualisé sur le plan épistémique, le Prédicteur de l’IA-Chercheur n’a jamais de raison de produire des résultats fondés sur ce que les humains veulent entendre. Et par cette même procédure d’entraînement, le Prédicteur de l’IA-Chercheur n’apprend jamais à imiter les expressions humaines de comportement orienté vers un objectif et n’a jamais de raison de biaiser ses prédictions afin d’atteindre des conséquences particulières en aval. Ainsi, l’entraînement de l’IA-Chercheur ne produit pas de comploteur. Voilà, en somme, comment l’IA-Chercheur bloque les voies menant à la flagornerie et à l’agentivité implicite. 

Bien sûr, il reste encore beaucoup à dire. Notre article récent présente également plusieurs autres composantes que nous aborderons dans de prochains billets de blogue, notamment l’Explicateur, qui fournit des explications en langage naturel des résultats probabilistes bruts du Prédicteur, à la manière d’un scientifique proposant une théorie. Nous présentons également un résultat de sécurité qui limite la probabilité que notre système entraîné produise ce que nous appelons un « Prédicteur dangereux ». Il y a encore beaucoup à dire, tant sur les hypothèses derrière notre proposition, qui gagneraient à être mises à l’épreuve empiriquement, que sur le rôle légitime que l’agentivité peut jouer dans l’IA-Chercheur — sous la forme d’une agentivité explicite qui réside dans un code d’échafaudage explicite et vérifiable, plutôt qu’une agentivité implicite dissimulée dans le Prédicteur lui-même. 

Le point le plus important à reconnaître est peut-être la façon dont l’entraînement de l’IA-Chercheur évite la flagornerie et l’agentivité implicite. Notre pipeline ne produit ni flagorneur ni comploteur, mais il ne produit pas pour autant un saint. La force du Prédicteur repose sur son désintérêt envers tout ce qui n’est pas l’exactitude de ses prédictions par rapport aux observations passées. Bien que le Prédicteur puisse prédire si une action risque de violer un principe moral donné, il ne se soucie pas lui-même de ces principes moraux. 

Nous considérons ce désintérêt comme un atout plutôt qu’un défaut. Le désintérêt du Prédicteur est précisément ce qui permet aux incitatifs qui favorisent l’exactitude de fonctionner de concert avec ceux qui favorisent la sécurité. Sans souci pour les conséquences, quelles qu’elles soient, ses résultats découlent simplement de prédictions de la vérité d’un énoncé donné, telle qu’elle se reflète dans sa compréhension du monde. La force du Prédicteur repose sur son désintérêt envers tout ce qui n’est pas l’exactitude de ses prédictions par rapport aux observations passées, fondées sur des mécanismes causaux susceptibles de se généraliser à de nouvelles situations, tout comme les théories scientifiques. 

  • 1

    Nous utilisons le terme « se soucier » dans un sens très restreint. Un système « se soucie » des conséquences en aval de ses résultats si ces conséquences influencent d’une manière ou d’une autre les résultats du système.