DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Ridículo que a OpenAI tenha reivindicado 74.9% no SWE-Bench apenas para provar que estava acima dos 74.5% do Opus 4.1 ... Executando-o em 477 problemas em vez dos 500 completos. Seu cartão de sistema diz apenas 74% também.

Fonte:

E sim, eu sei que eles sempre relataram o denominador 477, mas isso NÃO é "SWE-Bench verificado", é uma métrica totalmente diferente, é "Subconjunto da OpenAI de SWE Bench Verified" e esse número não pode ser comparado

23,14K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável