É interessante que a ideia de avaliações de capacidades perigosas tenha se originado em um contexto em que muitos comentários públicos estavam ancorados em papagaios estocásticos e "A IA não pode gerar dedos, como poderia ser uma ameaça além do viés?" Portanto, fazia muito sentido construir versões de brinquedo de usos prejudiciais para comunicar melhor o que era possível, especialmente dada a intuição correta do pessoal de segurança de que o progresso não pararia por aqui: mesmo que as IAs falhassem, seria fácil mostrá-las melhorando com o tempo. O problema é que isso funcionou um pouco bem demais e as pessoas esqueceram a parte da 'versão de brinquedo' das avaliações, com a mídia relatando 'chantagem' ou modelos indo bem em MCQs básicos de virologia ou gerando código básico para malware como grandes negócios - eles não eram. Mas é claro que muitos defensores adoravam usá-los para ilustrar por que a regulamentação era necessária mais do que nunca, ou exagerar o quão ruim as coisas estavam (memes 'tudo bem' etc.). As pessoas fizeram alegações questionáveis sobre "modelos perigosos", alimentadas pela profunda aversão ao risco que caracteriza o campo. Desde então, o campo amadureceu e as avaliações parecem melhores, em parte porque o lado da segurança teve que realmente se envolver com especialistas de domínio em bio ou cibernética, em vez de tentar resolver tudo a partir dos primeiros princípios. Embora eu ainda ache muitas avaliações básicas, estáticas e não válidas externamente - elas continuam sendo indicadores importantes. Mas os modelos de ameaças específicos continuam a ser debatidos, e permanece uma questão em aberto se a IA alterará materialmente o equilíbrio da defesa ofensiva na segurança cibernética. O recente relatório da Anthropic é um ótimo trabalho, mas não parece um grande problema, pois esses tipos de ataques são bastante comuns; Claro que há mais automação envolvida e isso deve ser estudado, mas isso por si só obviamente seria o caso em um certo nível de difusão. Você deve esperar que os bandidos também usem a tecnologia. O que devemos ficar de olho é se isso está criando uma assimetria gradual e aumentando significativamente os danos / custos / resgates + até que ponto as defesas cibernéticas / infraestrutura crítica são reforçadas em paralelo. Na minha opinião, devemos ter priores favorecendo o "equilíbrio confuso" em vez da "vantagem de ofensa unilateral".