熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
有趣的是,危險能力評估的想法最初是在一個公共評論主要集中於隨機鸚鵡和「AI無法生成手指,那它怎麼可能成為超越偏見的威脅?」的背景下產生的。
因此,建立有害用途的玩具版本以更好地傳達可能性是非常合理的,特別是考慮到安全專家正確的直覺,即進展不會止步於此:即使AI失敗,顯示它們隨著時間的推移變得更好也很容易。
問題是這樣做有點過於成功,人們忘記了評估的「玩具版本」部分,媒體報導「勒索」或模型在基本病毒學多選題中表現良好或生成基本的惡意代碼作為重大事件——其實並不是。
但當然,許多倡導者喜歡利用它們來說明為什麼比以往任何時候都更需要監管,或誇大事情的嚴重性(「這很好」的迷因等)。人們對「危險模型」做出了可疑的聲明,這是由該領域特有的深度風險厭惡所驅動。
自那時以來,該領域已經成熟,評估看起來更好,部分原因是安全方面必須實際與生物或網絡領域的專家接觸,而不是試圖從第一原則出發解決所有問題。儘管我仍然覺得許多評估基本、靜態且不具外部有效性——但它們仍然是重要的指標。
但具體的威脅模型仍在辯論中,AI是否會實質性改變網絡安全中的攻防平衡仍然是一個未解的問題。
最近的Anthropic報告是很好的工作,但似乎並不是一個重大事件,因為這類攻擊相當常見;當然,涉及更多自動化,這應該被研究,但這在某種程度的擴散下顯然是必然的。
你應該預期壞人也會使用技術。我們應該關注的是這是否正在創造逐漸的不對稱,並顯著增加損害/成本/贖金,以及網絡防禦/關鍵基礎設施在此過程中得到加強的程度。依我看,我們應該有偏向於「混亂均衡」而非「單邊攻擊優勢」的先驗。
熱門
排行
收藏

