Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Séb Krier
🪼 Desarrollo de políticas y estrategia de AGI @GoogleDeepMind | adicto a rekkid, planeador dimensional, habitante profundo de ArXiv, fugitivo interestelar, incierto | 🛸
Es interesante que la idea de las evaluaciones de capacidades peligrosas se originó por primera vez en un contexto en el que muchos comentarios públicos se basaban en loros estocásticos y "la IA no puede generar dedos, ¿cómo podría ser una amenaza más allá del sesgo?"
Por lo tanto, tenía mucho sentido construir versiones de juguete de usos dañinos para comunicar mejor lo que era posible, particularmente dada la intuición correcta de la gente de seguridad de que el progreso no se detendría aquí: incluso si las IA fallaran, sería fácil mostrarlas mejorando con el tiempo.
El problema es que esto funcionó demasiado bien y la gente olvidó la parte de la "versión de juguete" de las evaluaciones, con los medios informando de "chantaje" o modelos que lo hacían bien en los MCQ de virología básica o generando código básico para malware como grandes ofertas, no lo eran.
Pero, por supuesto, a muchos defensores les encantaba usarlos para ilustrar por qué la regulación era más necesaria que nunca, o exagerar lo mal que estaban las cosas (memes de 'esto está bien', etc.). La gente hizo afirmaciones cuestionables sobre "modelos peligrosos", alimentadas por la profunda aversión al riesgo que caracteriza al campo.
Desde entonces, el campo ha madurado y las evaluaciones se ven mejor, en parte porque el lado de la seguridad tuvo que involucrarse con expertos en el dominio en bio o cibernética en lugar de tratar de resolverlo todo desde los primeros principios. Aunque todavía encuentro muchas evaluaciones básicas, estáticas y no válidas externamente, siguen siendo indicadores importantes.
Pero los modelos de amenazas específicas continúan siendo objeto de debate, y sigue siendo una pregunta abierta si la IA va a alterar materialmente el equilibrio de defensa ofensiva en la seguridad cibernética.
El reciente informe de Anthropic es un gran trabajo, pero no parece un gran problema en el sentido de que este tipo de ataques son bastante comunes; Claro que hay más automatización involucrada y eso debería estudiarse, pero eso solo obviamente iba a ser el caso a un cierto nivel de difusión.
Debes esperar que los malos también usen la tecnología. Lo que deberíamos estar atentos es si esto está creando una asimetría gradual y aumentando significativamente los daños/costos/rescates + la medida en que las defensas cibernéticas/infraestructura crítica se fortalecen en paralelo. En mi opinión, deberíamos tener antecedentes que favorezcan el "equilibrio desordenado" sobre la "ventaja ofensiva unilateral".
1.26K
Hay algo realmente especial en un experto o académico que es capaz de expresarse con claridad y está dispuesto a interpretar caritativamente las objeciones de buena fe de los no expertos. En cambio, lo que a veces obtienes es una forma de mantener la puerta, un poco de arrogancia, respaldada por la comodidad ilusoria de un foso que la IA está ayudando a deshacer. El progreso de la IA es una mala noticia si valoras tu condición de experto más que el avance de la comprensión/conocimiento.
5.46K
Populares
Ranking
Favoritas

