Ora che sono passati alcuni anni, sembra che i problemi di sicurezza dell'IA siano empiricamente validi (ad esempio, l'hacking delle ricompense nei modelli di codifica), ma l'approccio "distribuisci, itera e impara" di OpenAI ha funzionato bene finora. I modelli migliorano, alcune cose si rompono e si costruiscono guardrail man mano che si procede...
Dove questo si rompe è se: 1) Un altro attore distribuisce modelli potenti in contesti significativi senza queste protezioni in atto 2) I modelli iniziano a migliorare troppo rapidamente perché il nostro ciclo OODA non riesce a tenere il passo (ad es. scenario di singolarità)
Dove questo si rompe: 1) Un altro attore distribuisce modelli potenti in contesti significativi senza queste protezioni in atto 2) I modelli iniziano a migliorare troppo rapidamente perché il nostro ciclo OODA possa tenere il passo (ad es. scenario di singolarità)
Dove questo si rompe: 1) Un altro attore implementa modelli potenti in contesti significativi senza queste protezioni in atto oppure 2) I modelli iniziano a migliorare troppo rapidamente perché il nostro ciclo OODA possa tenere il passo (ad es. scenario di singolarità)
209