Je zajímavé, že myšlenka hodnocení nebezpečných schopností poprvé vznikla v kontextu, kde se většina veřejných komentářů soustředila na stochastické papoušky a "AI nemůže generovat prsty, jak by vůbec mohla být hrozbou mimo předpojatost?" Dávalo tedy velký smysl vytvářet verze hraček se škodlivým použitím, aby bylo možné lépe sdělovat, co je možné, zejména s ohledem na správnou intuici lidí z oblasti bezpečnosti, že pokrok se zde nezastaví: i kdyby umělé inteligence selhaly, bylo by snadné ukázat, že se postupem času zlepšují. Problém je v tom, že to fungovalo až příliš dobře a lidé zapomněli na část hodnocení "hračkové verze", kdy média informovala o "vydírání" nebo o modelech, které si vedly dobře v základních virologických MCQ nebo generovaly základní kód pro malware jako o obrovských obchodech - nebyly. Ale samozřejmě mnoho zastánců je rádo používalo k ilustraci, proč je regulace potřebná více než kdy jindy, nebo zveličování, jak špatné věci jsou (memy "to je v pořádku" atd.). Lidé přicházeli s pochybnými tvrzeními o "nebezpečných modelech", poháněnými hlubokou averzí k riziku, která je pro tento obor charakteristická. Od té doby obor dozrál a hodnocení vypadají lépe, částečně proto, že bezpečnostní stránka musela skutečně spolupracovat s odborníky na bio nebo kybernetickou oblast, spíše než se snažit vše vypracovat od prvních principů. I když stále považuji mnoho hodnocení za základní, statické, a nenavenek platné - zůstávají důležitými ukazateli. O konkrétních modelech hrozeb se však stále diskutuje a zůstává otevřenou otázkou, zda umělá inteligence podstatně změní rovnováhu útočné obrany v kybernetické bezpečnosti. Nedávná zpráva Anthropic je skvělá práce, ale nezdá se být velkým problémem v tom, že tyto typy útoků jsou poměrně běžné; Jistě, je v tom více automatizace a to by mělo být studováno, ale to samo o sobě by zjevně platilo na určité úrovni šíření. Měli byste očekávat, že padouši budou také používat technologie. Měli bychom dávat pozor na to, zda to nevytváří postupnou asymetrii a výrazně nezvyšuje škody/náklady/výkupné + rozsah, v jakém se paralelně posiluje kybernetická obrana/kritická infrastruktura. Podle mého názoru bychom měli mít apriory, kteří upřednostňují "chaotickou rovnováhu" před "jednostrannou útočnou výhodou".