Este interesant faptul că ideea evaluărilor de capabilități periculoase își are originea într-un context în care multe comentarii publice au fost ancorate pe papagalii stocastici și "AI nu poate genera degete, cum ar putea fi vreodată o amenințare dincolo de părtinire?" Așa că avea mult sens să construim versiuni de jucărie cu utilizări dăunătoare pentru a comunica mai bine ceea ce era posibil, mai ales având în vedere intuiția corectă a oamenilor de siguranță că progresul nu se va opri aici: chiar dacă AI-urile ar eșua, ar fi ușor să le arătăm că se îmbunătățesc în timp. Problema este că acest lucru a funcționat puțin prea bine și oamenii au uitat partea de "versiune de jucărie" a evals, mass-media raportând "șantaj" sau modele care se descurcă bine la MCQ-urile de virologie de bază sau generând cod de bază pentru malware ca fiind afaceri uriașe - nu au fost. Dar, desigur, multor susținători le-a plăcut să le folosească pentru a ilustra de ce reglementarea era necesară mai mult ca niciodată sau pentru a exagera cât de rele erau lucrurile (meme "asta e în regulă" etc.). Oamenii au făcut afirmații discutabile despre "modele periculoase", alimentate de aversiunea profundă față de risc care caracterizează domeniul. De atunci, domeniul s-a maturizat și evaluările arată mai bine, parțial pentru că partea de siguranță a trebuit să se angajeze cu experți în domeniul bio sau cibernetic, mai degrabă decât să încerce să rezolve totul după principiile de bază. Deși încă găsesc multe evaluări de bază, statice și nevalide extern - ele rămân indicatori importanți. Dar modelele specifice de amenințare continuă să fie dezbătute și rămâne o întrebare deschisă dacă AI va modifica semnificativ echilibrul apărării ofensive în securitatea cibernetică. Recentul raport Anthropic este o treabă grozavă, dar nu pare a fi o mare afacere în sensul că aceste tipuri de atacuri sunt destul de frecvente; Sigur că există mai multă automatizare implicată și asta ar trebui studiată, dar numai asta va fi evident cazul la un anumit nivel de difuzie. Ar trebui să te aștepți ca și băieții răi să folosească tehnologia. Ceea ce ar trebui să urmărim este dacă acest lucru creează o asimetrie treptată și crește semnificativ daunele/costurile/răscumpărările + măsura în care apărarea cibernetică/infrastructura critică se întărește în paralel. În opinia mea, ar trebui să avem priori care să favorizeze "echilibrul dezordonat" în detrimentul "avantajului ofensiv unilateral".