Recherche
Nous œuvrons à créer une IA avancée sécuritaire, selon une approche en plusieurs étapes.
Le concept central de notre recherche innovante est l’IA-Chercheur, une approche novatrice conçue par Yoshua Bengio qui représente une voie distincte axée sur la sécurité menant vers une IA super-intelligente (ASI).
L’IA-Chercheur s’inspire d’un scientifique idéalisé: un esprit ayant intériorisé les lois de la nature et les utilisant pour formuler des prédictions, mais sans prédilection quant à la manière dont les choses se déroulent. Il s'agit d'une machine hautement intelligente qui utilise le raisonnement probabiliste pour comprendre le monde, sans objectifs ni préférences cachés. Ses prédictions sont transparentes, auditables et vérifiables.
Alors que nous progresserons vers une IA avancée sécuritaire, nous prévoyons que l'IA-Chercheur permette d'accélérer des avancées scientifiques, de fournir des garde-fous et une supervision pour les systèmes d'IA agentiques, tout en améliorant notre compréhension des risques posés par l'IA et des moyens de les éviter.
Scientific theories aspire to describe what is, as opposed to prescribe what ought to be. At LawZero, we take this idea as a design principle for safe artificial intelligence: that understanding—even of arbitrary depth and scope—can be disentangled from preference over how the world unfolds.
We distill into a non-technical overview the motivations and core components of the Scientist AI, a system that aspires to this ideal. Agency, we argue, rests on three pillars—affordances, goal-directedness, and intelligence—each a matter of degree. By limiting the first two while pursuing the third, we aim to build a system that is highly intelligent yet incapable of holding or pursuing goals of its own. The Scientist AI comprises a generator held accountable by a neutral estimator, allowing for creative thought without compromising safety. Two key ingredients are (i) contextualization, a transformation of the training data that disentangles facts from statements about such facts (e.g., opinions), and (ii) consequence invariance, a property of the training process that prevents feedback about downstream outcomes.
We believe this approach offers a promising path toward systems that are at once powerful, transparent, and safe, and that may serve as trustworthy anchors in a world of increasingly autonomous AI.