Es interesante que la idea de las evaluaciones de capacidades peligrosas se originó primero en un contexto donde muchos comentarios públicos estaban anclados en loros estocásticos y "la IA no puede generar dedos, ¿cómo podría ser una amenaza más allá del sesgo?" Así que tenía mucho sentido construir versiones de juguete de usos dañinos para comunicar mejor lo que era posible, particularmente dado la intuición correcta de los expertos en seguridad de que el progreso no se detendría aquí: incluso si las IA fallaban, sería fácil mostrar cómo mejoraban con el tiempo. El problema es que esto funcionó un poco demasiado bien y la gente olvidó la parte de 'versión de juguete' de las evaluaciones, con los medios informando sobre 'chantajes' o modelos que se desempeñaban bien en preguntas de opción múltiple básicas de virología o generando código básico para malware como grandes problemas - no lo eran. Pero, por supuesto, muchos defensores amaban usarlos para ilustrar por qué se necesitaba regulación más que nunca, o exagerando cuán malas eran las cosas (memes de 'esto está bien', etc.). La gente hizo afirmaciones cuestionables sobre 'modelos peligrosos', alimentadas por la profunda aversión al riesgo que caracteriza el campo. Desde entonces, el campo ha madurado y las evaluaciones se ven mejor, en parte porque el lado de la seguridad tuvo que involucrarse realmente con expertos en el dominio de la biología o ciberseguridad en lugar de intentar resolverlo todo desde los primeros principios. Aunque todavía encuentro muchas evaluaciones básicas, estáticas y no válidas externamente - siguen siendo indicadores importantes. Pero los modelos de amenaza específicos continúan siendo debatidos, y sigue siendo una pregunta abierta si la IA va a alterar materialmente el equilibrio entre ofensiva y defensiva en la ciberseguridad. El reciente informe de Anthropic es un gran trabajo, pero no parece ser un gran problema en que estos tipos de ataques son bastante comunes; claro que hay más automatización involucrada y eso debería ser estudiado, pero eso solo iba a ser obvio a un cierto nivel de difusión. Deberías esperar que los malos también usen tecnología. Lo que deberíamos estar vigilando es si esto está creando una asimetría gradual y aumentando significativamente los daños/costos/chantajes + la medida en que las defensas cibernéticas/infraestructura crítica se endurecen en paralelo. En mi opinión, deberíamos tener antecedentes que favorezcan "equilibrio desordenado" sobre "ventaja ofensiva unilateral".