Интересно, что идея оценки опасных возможностей впервые возникла в контексте, где много общественных комментариев было сосредоточено на стохастических попугаях и "ИИ не может генерировать пальцы, как он может быть угрозой, кроме как предвзятости?" Поэтому было вполне логично создать игрушечные версии вредоносных применений, чтобы лучше донести, что возможно, особенно учитывая правильную интуицию со стороны специалистов по безопасности, что прогресс не остановится на этом: даже если ИИ потерпят неудачу, будет легко показать, как они становятся лучше со временем. Проблема в том, что это сработало немного слишком хорошо, и люди забыли о части 'игрушечной версии' оценок, с тем, как СМИ сообщали о 'шантажах' или моделях, которые хорошо справлялись с базовыми вопросами по вирусологии или генерировали базовый код для вредоносного ПО как о больших событиях - это не так. Но, конечно, многие сторонники любили использовать их, чтобы проиллюстрировать, почему регулирование необходимо как никогда, или преувеличивать, насколько все плохо ('это нормально' мемы и т.д.). Люди делали сомнительные заявления о 'опасных моделях', подогреваемые глубокой рискованной настороженностью, которая характеризует эту область. С тех пор область повзрослела, и оценки выглядят лучше, отчасти потому, что сторона безопасности должна была на самом деле взаимодействовать с экспертами в области биологии или кибербезопасности, а не пытаться разобраться во всем с нуля. Хотя я все еще нахожу многие оценки базовыми, статичными и не имеющими внешней валидности - они остаются важными индикаторами. Но конкретные модели угроз продолжают обсуждаться, и остается открытым вопрос, изменит ли ИИ существенно баланс нападения и защиты в кибербезопасности. Недавний отчет Anthropic - отличная работа, но не кажется чем-то большим, поскольку такие типы атак довольно распространены; конечно, вовлечено больше автоматизации, и это следует изучить, но это само по себе, очевидно, должно было быть так на определенном уровне диффузии. Вы должны ожидать, что плохие парни тоже будут использовать технологии. На что нам следует обратить внимание, так это на то, создает ли это постепенную асимметрию и значительно увеличивает ли ущерб/затраты/выкуп + в какой степени киберзащита/критическая инфраструктура укрепляется параллельно. На мой взгляд, мы должны иметь приоритеты, которые отдают предпочтение "неаккуратному равновесию" перед "односторонним преимуществом нападения".