Nu när vi har gått några år verkar det som om AI-säkerhetsproblem är empiriskt giltiga (t.ex. belöningshackning i kodningsmodeller), men OpenAI:s strategi "distribuera, iterera och lära" har hittills fungerat bra. Modellerna blir bättre, vissa saker går sönder och du bygger skyddsräcken allt eftersom...
Där detta bryts är om: 1) En annan aktör använder kraftfulla modeller i betydelsefulla miljöer utan dessa skyddsräcken i närheten 2) Modellerna börjar förbättras för snabbt för att vår OODA-loop ska hänga med (t.ex. singularitetsscenario)
Var detta bryts: 1) En annan aktör använder kraftfulla modeller i konsekventa miljöer utan dessa skyddsräcken i närheten 2) Modellerna börjar förbättras för snabbt för att vår OODA-loop ska hänga med (t.ex. singularitetsscenario)
Var detta bryts: 1) En annan aktör använder kraftfulla modeller i betydelsefulla miljöer utan att dessa skyddsräcken finns på plats eller 2) Modellerna börjar förbättras för snabbt för att vår OODA-loop ska hänga med (t.ex. singularitetsscenario)
241