GPT-5 systemkortkapasitet evals reaksjoner tråd. Første observasjon: ~ingen forbedring på alle kodingsvurderingene som ikke er SWEBench
Veldig kul ny benchmark
Interessant at modellen ikke bare visste at den var i en eval, men den nøyaktige oppgaven og organisasjonen som kjørte den
37,75K