Agora que estamos há alguns anos, parece que as preocupações com a segurança da IA são empiricamente válidas (por exemplo, hacking de recompensa em modelos de codificação), mas a abordagem OpenAI "implantar, iterar e aprender" funcionou bem até agora. Os modelos ficam melhores, algumas coisas quebram, você constrói guarda-corpos à medida que avança...
Onde isso falha é se: 1) Outro ator implanta modelos poderosos em configurações consequentes sem essas salvaguardas em vigor 2) Os modelos começam a melhorar rápido demais para o nosso ciclo OODA acompanhar (por exemplo, cenário de singularidade)
Onde isto falha: 1) Outro ator implementa modelos poderosos em cenários consequentes sem estas salvaguardas em vigor 2) Os modelos começam a melhorar rápido demais para o nosso ciclo OODA acompanhar (por exemplo, cenário de singularidade)
Onde isso falha: 1) Outro ator implementa modelos poderosos em cenários consequentes sem essas salvaguardas em vigor ou 2) Os modelos começam a melhorar rápido demais para o nosso ciclo OODA acompanhar (por exemplo, cenário de singularidade)
231