Det er interessant at ideen om evalueringer av farlige evner først oppsto i en kontekst der mye offentlig kommentar var forankret i stokastiske papegøyer og "AI kan ikke generere fingre, hvordan kan det noen gang være en trussel utover partiskhet?" Så det var veldig fornuftig å bygge leketøysversjoner av skadelig bruk for bedre å kommunisere hva som var mulig, spesielt gitt den riktige intuisjonen fra sikkerhetsfolk om at fremgangen ikke ville stoppe her: selv om AI-ene mislyktes, ville det være lett å vise at de ble bedre over tid. Problemet er at dette fungerte litt for bra og folk glemte "leketøysversjon"-delen av evals, med media som rapporterte "utpressing" eller modeller som gjorde det bra på grunnleggende virologi MCQ-er eller genererte grunnleggende kode for skadelig programvare som store avtaler - det var de ikke. Men selvfølgelig elsket mange talsmenn å bruke dem for å illustrere hvorfor regulering var nødvendig mer enn noen gang, eller overdrive hvor ille ting var ('dette er greit' memes osv.). Folk kom med tvilsomme påstander om «farlige modeller», drevet av den dype risikoaversjonen som kjennetegner feltet. Siden den gang har feltet modnet og evalueringer ser bedre ut, delvis fordi sikkerhetssiden faktisk måtte engasjere seg med domeneeksperter innen bio eller cyber i stedet for å prøve å finne ut av det hele ut fra de første prinsippene. Selv om jeg fortsatt synes mange vurderinger er grunnleggende, statiske og ikke eksternt gyldige - de er fortsatt viktige indikatorer. Men de spesifikke trusselmodellene fortsetter å bli diskutert, og det er fortsatt et åpent spørsmål om AI kommer til å endre angrepsforsvarsbalansen i cybersikkerhet vesentlig. Den nylige Anthropic-rapporten er godt arbeid, men virker ikke som en stor sak i og med at denne typen angrep er ganske vanlige; Klart det er mer automatisering involvert, og det bør studeres, men det alene kom åpenbart til å være tilfelle på et visst diffusjonsnivå. Du bør forvente at skurker også bruker teknologi. Det vi bør holde øye med er om dette skaper en gradvis asymmetri og øker skader/kostnader/løsepenger betydelig + i hvilken grad cyberforsvar/kritisk infrastruktur blir herdet parallelt. Imo burde vi ha priorer som favoriserer "rotete likevekt" fremfor "ensidig angrepsfordel".