Het is interessant dat het idee van evaluaties van gevaarlijke capaciteiten oorspronkelijk voortkwam uit een context waarin veel publieke commentaar was verankerd in stochastische papegaaien en "AI kan geen vingers genereren, hoe kan het ooit een bedreiging zijn buiten vooringenomenheid?" Dus het was heel logisch om speelgoedversies van schadelijke toepassingen te bouwen om beter te communiceren wat mogelijk was, vooral gezien de juiste intuïtie van veiligheidsmensen dat de vooruitgang hier niet zou stoppen: zelfs als de AI's faalden, zou het gemakkelijk zijn om te laten zien dat ze in de loop van de tijd beter werden. Het probleem is dat dit een beetje te goed werkte en mensen de 'speelgoedversie' van evaluaties vergaten, met media die 'afpersing' of modellen die het goed deden bij basis virologie MCQ's of het genereren van basiscode voor malware als grote zaken rapporteerden - dat waren ze niet. Maar natuurlijk hielden veel voorstanders ervan om ze te gebruiken om te illustreren waarom regulering meer dan ooit nodig was, of om te overdrijven hoe slecht de zaken waren ('dit is prima' memes enz.). Mensen deden twijfelachtige claims over 'gevaarlijke modellen', gevoed door de diepe risicomijdendheid die het veld kenmerkt. Sindsdien is het veld volwassen geworden en zien evaluaties er beter uit, deels omdat de veiligheidskant daadwerkelijk moest samenwerken met domeinexperts in bio of cyber in plaats van alles vanuit eerste principes te proberen uit te zoeken. Hoewel ik nog steeds veel evaluaties basis, statisch en niet extern valide vind - ze blijven belangrijke indicatoren. Maar de specifieke dreigingsmodellen blijven onderwerp van debat, en het blijft een open vraag of AI de balans tussen aanval en verdediging in cyberbeveiliging materieel zal veranderen. Het recente rapport van Anthropic is geweldig werk, maar lijkt geen grote zaak te zijn omdat deze soorten aanvallen vrij gebruikelijk zijn; zeker er is meer automatisering bij betrokken en dat moet bestudeerd worden, maar dat alleen was duidelijk het geval op een bepaald niveau van diffusie. Je moet verwachten dat slechte jongens ook technologie gebruiken. Waar we op moeten letten is of dit een geleidelijke asymmetrie creëert en de schade/kosten/losgelden aanzienlijk verhoogt + de mate waarin cyberverdedigingen/kritieke infrastructuur parallel wordt versterkt. Naar mijn mening zouden we prioriteiten moeten hebben die "rommelige evenwichten" boven "unilaterale aanvalvoordelen" bevoordelen.