Thread de reações à avaliação de capacidades do cartão do sistema GPT-5. Primeira observação: ~nenhuma melhoria em todas as avaliações de codificação que não são SWEBench.
Muito fixe novo benchmark
Interessante que o modelo soubesse não apenas que estava em uma avaliação, mas a tarefa exata e a organização que a estava realizando.
37,76K