GPT-5 systemkortskapacitet utvärderar reaktionstråden. Första observationen: ~ingen förbättring av alla kodningsevals som inte är SWEBench
Väldigt coolt nytt riktmärke
Intressant att modellen inte bara visste att den befann sig i en eval, utan den exakta uppgiften och organisationen som körde den
37,76K