有趣的是,危险能力评估的想法最初是在一个公众评论主要围绕随机鹦鹉和“AI无法生成手指,它怎么可能超越偏见成为威胁?”的背景下产生的。 因此,构建有害用途的玩具版本以更好地传达可能性是非常合理的,特别是考虑到安全领域的专家们正确的直觉,即进展不会止步于此:即使AI失败,展示它们随着时间的推移变得更好也很容易。 问题在于,这种做法有点过于成功,人们忘记了评估的“玩具版本”部分,媒体报道“勒索”或模型在基本病毒学多项选择题中表现良好,或生成基本恶意软件代码作为重大事件——其实并不是。 但当然,许多倡导者喜欢利用这些来说明为什么比以往任何时候都更需要监管,或者夸大事情的严重性(“这没问题”表情包等)。人们对“危险模型”做出了可疑的声明,这种声明是由该领域特有的深度风险厌恶所推动的。 自那时以来,该领域已经成熟,评估看起来更好,部分原因是安全方面必须真正与生物或网络领域的专家进行接触,而不是试图从第一原理出发解决所有问题。尽管我仍然发现许多评估是基本的、静态的,并且不具外部有效性——但它们仍然是重要的指标。 但具体的威胁模型仍在辩论中,AI是否会在网络安全中实质性地改变攻防平衡仍然是一个悬而未决的问题。 最近的Anthropic报告是很好的工作,但似乎并不是一件大事,因为这些类型的攻击相当常见;当然,涉及更多的自动化,这应该被研究,但仅此一点显然在某个扩散水平上就会是这样。 你应该预期坏人也会使用技术。我们应该关注的是,这是否正在造成逐渐的不对称,并显著增加损害/成本/赎金,以及网络防御/关键基础设施在此过程中得到加强的程度。依我看,我们应该有倾向于“混乱均衡”而非“单边攻击优势”的先验。