Maintenant que nous sommes quelques années plus tard, il semble que les problèmes de sécurité de l’IA soient empiriquement valables (par exemple, le piratage de récompense dans les modèles de codage), mais l’approche « déployer, itérer et apprendre » d’OpenAI a bien fonctionné jusqu’à présent. Les modèles s’améliorent, certaines choses se cassent, et vous construisez des garde-fous au fur et à mesure...
Là où cela se casse, c'est si : 1) Un autre acteur déploie des modèles puissants dans des contextes conséquents sans ces garde-fous en place 2) Les modèles commencent à s'améliorer trop rapidement pour que notre boucle OODA puisse suivre (par exemple, scénario de singularité)
Où cela échoue : 1) Un autre acteur déploie des modèles puissants dans des contextes conséquents sans ces garde-fous en place 2) Les modèles commencent à s'améliorer trop rapidement pour que notre boucle OODA puisse suivre (par exemple, scénario de singularité)
Où cela échoue : 1) Un autre acteur déploie des modèles puissants dans des contextes conséquents sans ces garde-fous en place ou 2) Les modèles commencent à s'améliorer trop rapidement pour que notre boucle OODA puisse suivre (par exemple, scénario de singularité)
234