É interessante que a ideia de avaliações de capacidades perigosas tenha surgido primeiro em um contexto onde muitos comentários públicos estavam ancorados em papagaios estocásticos e "a IA não consegue gerar dedos, como poderia ser uma ameaça além do viés?" Portanto, fazia muito sentido construir versões de brinquedo de usos prejudiciais para comunicar melhor o que era possível, particularmente dada a intuição correta dos especialistas em segurança de que o progresso não pararia por aqui: mesmo que as IAs falhassem, seria fácil mostrar que estavam melhorando ao longo do tempo. O problema é que isso funcionou um pouco bem demais e as pessoas esqueceram a parte de 'versão de brinquedo' das avaliações, com a mídia relatando 'chantagem' ou modelos se saindo bem em questões de múltipla escolha básicas de virologia ou gerando código básico para malware como grandes questões - não eram. Mas, claro, muitos defensores adoravam usá-los para ilustrar por que a regulamentação era mais necessária do que nunca, ou exagerando quão ruins as coisas estavam ('isso está bem' memes, etc). As pessoas fizeram afirmações questionáveis sobre 'modelos perigosos', alimentadas pela profunda aversão ao risco que caracteriza o campo. Desde então, o campo amadureceu e as avaliações estão melhores, em parte porque o lado da segurança teve que realmente se envolver com especialistas em domínio em bio ou ciber, em vez de tentar resolver tudo a partir de princípios básicos. Embora eu ainda ache muitas avaliações básicas, estáticas e não externamente válidas - elas continuam a ser indicadores importantes. Mas os modelos de ameaça específicos continuam a ser debatidos, e permanece uma questão em aberto se a IA vai alterar materialmente o equilíbrio entre ofensa e defesa na cibersegurança. O recente relatório da Anthropic é um ótimo trabalho, mas não parece ser um grande problema, uma vez que esses tipos de ataques são bastante comuns; claro que há mais automação envolvida e isso deve ser estudado, mas isso por si só obviamente seria o caso em um certo nível de difusão. Você deve esperar que os vilões também usem tecnologia. O que devemos estar atentos é se isso está criando uma assimetria gradual e aumentando significativamente danos/custos/ressarcimentos + a extensão em que as defesas cibernéticas/infraestrutura crítica estão sendo fortalecidas em paralelo. Na minha opinião, devemos ter prioridades que favoreçam "equilíbrio bagunçado" em vez de "vantagem unilateral de ofensa".