La sécurité issue de l'honnêteté chez un prédicteur d'IA désintéressé (Safety from Honesty in a Disinterested AI Predictor)

Yoshua Bengio1,2,3, Oliver Richardson1,2,3, Tomáš Gavenčiak6,7, Michael Cohen4, Rory Svarc6, Damiano Fornasiere1,3, Gaël Gendron1, David Hyland8, Aton Kamanda1, Adam Oberman1,5, Francis Rhys Ward1, Anna Gavenčiak6, Jacob Livingston Slosser6,9, Vincent Mai1, Iulian Serban1, Joumana Ghosn1

1LawZero, 2Université de Montréal, 3Mila, 4University of California, Berkeley, 5McGill University, 6Arb Research, 7Center for Theoretical Study, Charles University in Prague, 8University of Oxford, 9Sapien Institute

Ce contenu scientifique est présentement disponible uniquement en anglais.