Nu we een paar jaar bezig zijn, lijkt het erop dat AI-veiligheidsproblemen empirisch geldig zijn (bijv. beloningshacking in coderingsmodellen), maar de OpenAI-benadering 'deploy iterate and learn' werkte tot nu toe prima. De modellen worden beter, sommige dingen breken, & je bouwt vangrails terwijl je gaat...
Waar dit faalt, is als: 1) Een andere actor krachtige modellen inzet in belangrijke omgevingen zonder deze waarborgen op hun plaats 2) De modellen te snel beginnen te verbeteren voor onze OODA-lus om bij te blijven (bijv. singulariteitsscenario)
Waar dit misgaat: 1) Een andere actor implementeert krachtige modellen in belangrijke omgevingen zonder deze waarborgen op hun plaats 2) De modellen beginnen te snel te verbeteren voor onze OODA-lus om bij te blijven (bijv. singulariteitsscenario)
Waar dit misgaat: 1) Een andere actor implementeert krachtige modellen in belangrijke situaties zonder deze waarborgen op hun plaats of 2) De modellen beginnen te snel te verbeteren voor onze OODA-lus om bij te blijven (bijv. singulariteitsscenario)
230