DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Séb Krier

🪼 Sviluppo e strategia delle politiche AGI @GoogleDeepMind | drogato di rekkid, aliante dimensionale, profondo abitante di ArXiv, fuggitivo interstellare, incerto | 🛸

È interessante notare che l'idea delle valutazioni delle capacità pericolose è emersa per la prima volta in un contesto in cui gran parte dei commenti pubblici era ancorata a pappagalli stocastici e "l'AI non può generare dita, come potrebbe mai essere una minaccia oltre al bias?" Quindi aveva molto senso costruire versioni giocattolo di usi dannosi per comunicare meglio ciò che era possibile, soprattutto data l'intuizione corretta da parte degli esperti di sicurezza che il progresso non si sarebbe fermato qui: anche se le AI fallivano, sarebbe stato facile mostrare che miglioravano nel tempo. Il problema è che questo ha funzionato un po' troppo bene e le persone hanno dimenticato la parte 'versione giocattolo' delle valutazioni, con i media che riportavano di 'estorsioni' o modelli che andavano bene in domande a scelta multipla di virologia di base o generando codice di base per malware come grandi affari - non lo erano. Ma ovviamente molti sostenitori amavano usarli per illustrare perché la regolamentazione fosse più necessaria che mai, o esagerando quanto fossero gravi le cose ('questo va bene' meme ecc.). Le persone hanno fatto affermazioni discutibili sui 'modelli pericolosi', alimentate dall'alta avversione al rischio che caratterizza il campo. Da allora il campo è maturato e le valutazioni stanno migliorando, in parte perché il lato della sicurezza ha dovuto effettivamente interagire con esperti del settore in bio o cyber piuttosto che cercare di risolvere tutto da principi di base. Anche se trovo ancora molte valutazioni basilari, statiche e non esternamente valide - rimangono indicatori importanti. Ma i modelli di minaccia specifici continuano a essere dibattuti, e rimane una questione aperta se l'AI andrà a modificare materialmente l'equilibrio tra offesa e difesa nella sicurezza informatica. Il recente rapporto di Anthropic è un ottimo lavoro ma non sembra un grande affare in quanto questi tipi di attacchi sono abbastanza comuni; certo, c'è più automazione coinvolta e questo dovrebbe essere studiato, ma da solo era ovviamente destinato a essere il caso a un certo livello di diffusione. Dovresti aspettarti che anche i cattivi usino la tecnologia. Quello a cui dovremmo prestare attenzione è se questo sta creando una asimmetria graduale e aumentando significativamente danni/costi/riscatti + l'estensione in cui le difese informatiche/infrastrutture critiche vengono indurite in parallelo. Secondo me dovremmo avere priorità che favoriscono "equilibrio disordinato" rispetto a "vantaggio unilaterale in attacco".

Principali

Ranking

Preferiti