Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Thật thú vị khi ý tưởng về việc đánh giá khả năng nguy hiểm lần đầu tiên xuất hiện trong một bối cảnh mà nhiều bình luận công khai được gắn liền với những con vẹt ngẫu nhiên và "AI không thể tạo ra ngón tay, làm thế nào nó có thể trở thành một mối đe dọa ngoài sự thiên lệch?"
Vì vậy, thật hợp lý khi xây dựng các phiên bản đồ chơi của những ứng dụng có hại để truyền đạt tốt hơn những gì có thể, đặc biệt là với trực giác đúng đắn từ những người làm công tác an toàn rằng tiến bộ sẽ không dừng lại ở đây: ngay cả khi các AI thất bại, sẽ dễ dàng để cho thấy chúng ngày càng tốt hơn theo thời gian.
Vấn đề là điều này đã hoạt động quá tốt và mọi người đã quên phần 'phiên bản đồ chơi' của các đánh giá, với các phương tiện truyền thông báo cáo về 'tống tiền' hoặc các mô hình làm tốt các câu hỏi trắc nghiệm vi sinh cơ bản hoặc tạo mã cơ bản cho phần mềm độc hại như những vấn đề lớn - chúng không phải như vậy.
Nhưng tất nhiên, nhiều người ủng hộ thích sử dụng chúng để minh họa tại sao cần có quy định hơn bao giờ hết, hoặc phóng đại mức độ tồi tệ của tình hình ('điều này thì ổn' memes, v.v.). Mọi người đã đưa ra những tuyên bố đáng ngờ về 'các mô hình nguy hiểm', được thúc đẩy bởi sự sợ hãi rủi ro sâu sắc đặc trưng cho lĩnh vực này.
Kể từ đó, lĩnh vực này đã trưởng thành và các đánh giá đang trở nên tốt hơn, một phần vì phía an toàn đã phải thực sự tham gia với các chuyên gia trong lĩnh vực sinh học hoặc an ninh mạng thay vì cố gắng làm rõ mọi thứ từ các nguyên tắc cơ bản. Tuy nhiên, tôi vẫn thấy nhiều đánh giá cơ bản, tĩnh và không có giá trị bên ngoài - chúng vẫn là những chỉ số quan trọng.
Nhưng các mô hình mối đe dọa cụ thể vẫn tiếp tục được tranh luận, và vẫn còn là một câu hỏi mở liệu AI có thực sự thay đổi cân bằng tấn công - phòng thủ trong an ninh mạng hay không.
Báo cáo gần đây của Anthropic là một công trình tuyệt vời nhưng dường như không phải là một vấn đề lớn vì những loại tấn công này khá phổ biến; chắc chắn có nhiều tự động hóa hơn và điều đó nên được nghiên cứu, nhưng điều đó một mình rõ ràng sẽ xảy ra ở một mức độ nhất định của sự khuếch tán.
Bạn nên mong đợi những kẻ xấu cũng sử dụng công nghệ. Điều mà chúng ta nên chú ý là liệu điều này có tạo ra một sự bất đối xứng dần dần và làm tăng đáng kể thiệt hại/chi phí/tiền chuộc + mức độ mà các biện pháp phòng thủ mạng/cơ sở hạ tầng quan trọng được củng cố song song. Theo ý kiến của tôi, chúng ta nên có những giả định ủng hộ "cân bằng lộn xộn" hơn là "lợi thế tấn công đơn phương".
Hàng đầu
Thứ hạng
Yêu thích

