DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Il est intéressant de noter que l'idée des évaluations des capacités dangereuses a d'abord émergé dans un contexte où de nombreux commentaires publics étaient ancrés sur les perroquets stochastiques et "l'IA ne peut pas générer de doigts, comment pourrait-elle jamais représenter une menace au-delà du biais ?" Il était donc logique de construire des versions simplifiées des utilisations nuisibles pour mieux communiquer ce qui était possible, en particulier compte tenu de l'intuition correcte des experts en sécurité selon laquelle les progrès ne s'arrêteraient pas là : même si les IA échouaient, il serait facile de montrer qu'elles s'amélioraient avec le temps. Le problème est que cela a fonctionné un peu trop bien et que les gens ont oublié la partie 'version simplifiée' des évaluations, les médias rapportant des 'chantages' ou des modèles réussissant à des QCM de virologie de base ou générant du code basique pour des logiciels malveillants comme des affaires énormes - ce n'était pas le cas. Mais bien sûr, de nombreux défenseurs ont adoré les utiliser pour illustrer pourquoi la réglementation était plus nécessaire que jamais, ou exagérer à quel point les choses étaient mauvaises ('c'est bien' mèmes, etc.). Les gens ont fait des affirmations douteuses sur des 'modèles dangereux', alimentées par la profonde aversion au risque qui caractérise le domaine. Depuis, le domaine a mûri et les évaluations s'améliorent, en partie parce que le côté sécurité a dû réellement s'engager avec des experts du domaine en biologie ou en cybersécurité plutôt que d'essayer de tout résoudre à partir de principes de base. Bien que je trouve encore de nombreuses évaluations basiques, statiques et non valides externes - elles restent des indicateurs importants. Mais les modèles de menace spécifiques continuent d'être débattus, et il reste une question ouverte de savoir si l'IA va modifier matériellement l'équilibre offense-défense en cybersécurité. Le récent rapport d'Anthropic est un excellent travail mais ne semble pas être une affaire énorme en ce sens que ces types d'attaques sont assez courants ; bien sûr, il y a plus d'automatisation impliquée et cela devrait être étudié, mais cela seul allait évidemment être le cas à un certain niveau de diffusion. Vous devriez vous attendre à ce que les méchants utilisent également la technologie. Ce que nous devrions surveiller, c'est si cela crée une asymétrie graduelle et augmente significativement les dommages/coûts/rançons + la mesure dans laquelle les défenses cybernétiques/infrastructures critiques sont renforcées en parallèle. À mon avis, nous devrions avoir des a priori favorisant "l'équilibre chaotique" plutôt que "l'avantage unilatéral de l'offensive".

Meilleurs

Classement

Favoris