Agora que já se passaram alguns anos, parece que as preocupações com a segurança da IA são empiricamente válidas (por exemplo, hacking de recompensa em modelos de codificação), mas a abordagem OpenAI 'implantar, iterar e aprender' funcionou bem até agora. Os modelos melhoram, algumas coisas quebram, e você constrói guarda-corpos à medida que avança...
Onde isso quebra é se: 1) Outro ator implanta modelos poderosos em configurações conseqüentes sem essas proteções no lugar 2) Os modelos começam a melhorar muito rápido para que nosso loop OODA acompanhe (por exemplo, cenário de singularidade)
Onde isso quebra: 1) Outro ator implanta modelos poderosos em configurações conseqüentes sem essas proteções no lugar 2) Os modelos começam a melhorar muito rápido para que nosso loop OODA acompanhe (por exemplo, cenário de singularidade)
Onde isso quebra: 1) Outro ator implanta modelos poderosos em configurações consequentes sem essas proteções em vigor ou 2) Os modelos começam a melhorar muito rápido para que nosso loop OODA acompanhe (por exemplo, cenário de singularidade)
240