Ridículo que a OpenAI tenha reivindicado 74.9% no SWE-Bench apenas para provar que estava acima dos 74.5% do Opus 4.1 ... Executando-o em 477 problemas em vez dos 500 completos. Seu cartão de sistema diz apenas 74% também.
Fonte:
E sim, eu sei que eles sempre relataram o denominador 477, mas isso NÃO é "SWE-Bench verificado", é uma métrica totalmente diferente, é "Subconjunto da OpenAI de SWE Bench Verified" e esse número não pode ser comparado
23,14K