Цікаво, що ідея оцінки небезпечних здібностей вперше виникла в контексті, коли багато публічних коментарів було зосереджено на стохастичних папугах і «штучний інтелект не може генерувати пальці, як він може бути загрозою поза упередженням?». Тому було багато сенсу створювати іграшкові версії шкідливих застосувань, щоб краще повідомляти про те, що можливо, особливо з огляду на правильну інтуїцію людей, які займаються безпекою, що прогрес на цьому не зупиниться: навіть якщо штучний інтелект зазнає невдачі, буде легко показати, що з часом вони стають кращими. Проблема в тому, що це спрацювало занадто добре, і люди забули про частину «іграшкової версії» в evals, коли ЗМІ повідомляли про «шантаж» або моделі, які добре справлялися з базовими вірусологічними MCQ, або генерували базовий код для шкідливого програмного забезпечення як величезні угоди — це не так. Але, звичайно, багато прихильників любили використовувати їх для ілюстрації, чому регулювання потрібне більше, ніж будь-коли, або перебільшувати, наскільки все погано («це добре», меми тощо). Люди робили сумнівні заяви про «небезпечні моделі», підживлювані глибокою неприязню до ризику, яка характеризує цю сферу. З тих пір ця сфера дозріла, і оцінки виглядають краще, частково тому, що стороні безпеки довелося фактично взаємодіяти з експертами в галузі біо або кібербезпеки, а не намагатися вирішити все з перших принципів. Хоча я все ще вважаю багато евалів базовими, статичними, а не зовнішніми - вони залишаються важливими показниками. Але конкретні моделі загроз продовжують обговорюватися, і залишається відкритим питання, чи збирається ШІ суттєво змінити баланс захисту в кібербезпеці. Нещодавній звіт Anthropic є чудовою роботою, але не здається великою проблемою, оскільки такі типи атак досить поширені; Звичайно, тут потрібно більше автоматизації, і це потрібно вивчати, але тільки це, очевидно, буде мати місце на певному рівні дифузії. Ви повинні очікувати, що погані хлопці також використовуватимуть технології. Ми повинні стежити за тим, чи створює це поступову асиметрію та значно збільшує збитки/витрати/викупи + ступінь, до якого кіберзахист/критична інфраструктура зміцнюється паралельно. У нас повинні бути апріори, які віддають перевагу «безладній рівновазі» над «односторонньою перевагою в нападі».