Recherche
Nous œuvrons à créer une IA avancée sécuritaire, selon une approche en plusieurs étapes.
Le concept central de notre recherche innovante est l’IA-Chercheur, une approche novatrice conçue par Yoshua Bengio qui représente une voie distincte axée sur la sécurité menant vers une IA super-intelligente (ASI).
L’IA-Chercheur s’inspire d’un scientifique idéalisé: un esprit ayant intériorisé les lois de la nature et les utilisant pour formuler des prédictions, mais sans prédilection quant à la manière dont les choses se déroulent. Il s'agit d'une machine hautement intelligente qui utilise le raisonnement probabiliste pour comprendre le monde, sans objectifs ni préférences cachés. Ses prédictions sont transparentes, auditables et vérifiables.
Alors que nous progresserons vers une IA avancée sécuritaire, nous prévoyons que l'IA-Chercheur permette d'accélérer des avancées scientifiques, de fournir des garde-fous et une supervision pour les systèmes d'IA agentiques, tout en améliorant notre compréhension des risques posés par l'IA et des moyens de les éviter.
Publication à
la une
We provide evidence that language models can detect, localize and, to a certain degree, verbalize the difference between perturbations applied to their activations. More precisely, we either (a) mask activations, simulating dropout, or (b) add Gaussian noise to them, at a target sentence. We then ask a multiple-choice question such as “Which of the previous sentences was perturbed?” or “Which of the two perturbations was applied?”. We test models from the Llama, Olmo, and Qwen families, with sizes between 8B and 32B, all of which can easily detect and localize the perturbations, often with perfect accuracy. These models can also learn, when taught in context, to distinguish between dropout and Gaussian noise. Notably, Qwen3-32B’s zero-shot accuracy in identifying which perturbation was applied improves as a function of the perturbation strength and, moreover, decreases if the in-context labels are flipped, suggesting a prior for the correct ones—even modulo controls.
Because dropout has been used as a training-regularization technique, while Gaussian noise is sometimes added during inference, we discuss the possibility of a data-agnostic “training awareness” signal and the implications for AI safety.