DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Det är intressant att idén om utvärderingar av farliga förmågor först har sitt ursprung i ett sammanhang där många offentliga kommentarer var förankrade i stokastiska papegojor och "AI kan inte generera fingrar, hur kan det någonsin vara ett hot bortom partiskhet?" Så det var mycket vettigt att bygga leksaksversioner av skadliga användningsområden för att bättre kommunicera vad som var möjligt, särskilt med tanke på den korrekta intuitionen från säkerhetsfolk att framstegen inte skulle stanna här: även om AI:erna misslyckades skulle det vara lätt att visa att de blir bättre med tiden. Problemet är att detta fungerade lite för bra och folk glömde bort "leksaksversionen" i evals, med media som rapporterade om "utpressning" eller modeller som gjorde bra ifrån sig på grundläggande virologiska MCQ:er eller generering av grundläggande kod för skadlig kod som stora erbjudanden - det gjorde de inte. Men naturligtvis älskade många förespråkare att använda dem för att illustrera varför reglering behövdes mer än någonsin, eller för att överdriva hur illa det var ('det här är bra', memes, etc.). Folk gjorde tvivelaktiga påståenden om "farliga modeller", underblåsta av den djupa riskaversion som kännetecknar området. Sedan dess har fältet mognat och utvärderingarna ser bättre ut, delvis på grund av att säkerhetssidan faktiskt var tvungna att engagera sig med domänexperter inom bio eller cyber snarare än att försöka räkna ut allt från första principerna. Även om jag fortfarande tycker att många utvärderingar är grundläggande, statiska och inte externt giltiga - de är fortfarande viktiga indikatorer. Men de specifika hotmodellerna fortsätter att debatteras, och det är fortfarande en öppen fråga om AI kommer att väsentligt förändra balansen i anfallsförsvaret inom cybersäkerhet. Den senaste antropiska rapporten är ett bra arbete men verkar inte vara en stor sak eftersom dessa typer av attacker är ganska vanliga; Visst är det mer automatisering inblandad och det bör studeras, men det ensamt skulle uppenbarligen vara fallet vid en viss diffusionsnivå. Du bör förvänta dig att skurkar också använder teknik. Det vi bör hålla utkik efter är om detta skapar en gradvis asymmetri och avsevärt ökar skador/kostnader/lösensummor + i vilken utsträckning cyberförsvar/kritisk infrastruktur härdas parallellt. Imo bör vi ha prioriteringar som gynnar "rörig jämvikt" framför "ensidig offensiv fördel".

Topp

Rankning

Favoriter