Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Séb Krier
🪼 Kebijakan AGI dev & strategi @GoogleDeepMind | pecandu rekkid, layang dimensi, penghuni ArXiv yang dalam, buronan antarbintang, tidak pasti | 🛸
Sangat menarik bahwa gagasan evaluasi kemampuan berbahaya pertama kali berasal dari konteks di mana banyak komentar publik berlabuh pada burung beo stokastik dan "AI tidak dapat menghasilkan jari, bagaimana bisa menjadi ancaman di luar bias?"
Jadi sangat masuk akal untuk membangun versi mainan dengan penggunaan berbahaya untuk mengkomunikasikan dengan lebih baik apa yang mungkin, terutama mengingat intuisi yang benar dari orang-orang keamanan bahwa kemajuan tidak akan berhenti di sini: bahkan jika AI gagal, akan mudah untuk menunjukkan bahwa mereka menjadi lebih baik dari waktu ke waktu.
Masalahnya adalah bahwa ini bekerja terlalu baik dan orang-orang melupakan bagian 'versi mainan' dari evals, dengan media melaporkan 'pemerasan' atau model yang melakukannya dengan baik pada MCQ virologi dasar atau menghasilkan kode dasar untuk malware sebagai kesepakatan besar - mereka tidak.
Tapi tentu saja banyak advokat suka menggunakannya untuk menggambarkan mengapa regulasi diperlukan lebih dari sebelumnya, atau melebih-lebihkan betapa buruknya hal-hal (meme 'ini baik-baik saja', dll). Orang-orang membuat klaim yang dipertanyakan tentang 'model berbahaya', dipicu oleh penghindaran risiko yang mendalam yang menjadi ciri lapangan.
Sejak itu bidang ini telah matang dan evaluasi terlihat lebih baik, sebagian karena sisi keamanan harus benar-benar terlibat dengan pakar domain di bio atau dunia maya daripada mencoba mengerjakan semuanya dari prinsip pertama. Meskipun saya masih menemukan banyak eval dasar, statis, dan tidak valid secara eksternal - mereka tetap menjadi indikator penting.
Tetapi model ancaman spesifik terus diperdebatkan, dan tetap menjadi pertanyaan terbuka apakah AI akan secara material mengubah keseimbangan pertahanan serangan dalam keamanan siber.
Laporan Anthropic baru-baru ini adalah pekerjaan yang hebat tetapi tampaknya tidak terlalu besar karena jenis serangan ini cukup umum; Tentu ada lebih banyak otomatisasi yang terlibat dan itu harus dipelajari, tetapi itu saja jelas akan terjadi pada tingkat difusi tertentu.
Anda harus mengharapkan orang jahat untuk menggunakan teknologi juga. Yang harus kita perhatikan adalah apakah ini menciptakan asimetri bertahap dan secara signifikan meningkatkan kerusakan/biaya/tebusan + sejauh mana pertahanan siber/infrastruktur penting diperkuat secara paralel. Imo kita harus memiliki priori yang lebih menyukai "keseimbangan berantakan" daripada "keunggulan pelanggaran sepihak".
11,1K
Ada sesuatu yang sangat istimewa tentang seorang ahli atau akademisi yang mampu mengekspresikan diri mereka dengan jelas, dan bersedia menafsirkan keberatan dengan itikad baik oleh non-ahli. Sebaliknya, apa yang terkadang Anda dapatkan adalah bentuk penjaga gerbang, sedikit arogansi - mendukung kenyamanan ilusi parit yang membantu AI membatalkannya. Kemajuan AI adalah kabar buruk jika Anda menghargai status Anda sebagai ahli lebih dari benar-benar memajukan pemahaman/pengetahuan.
5,48K
Teratas
Peringkat
Favorit

