A capacidade do cartão do sistema GPT-5 avalia o thread de reações. Primeira observação: ~ nenhuma melhoria em todas as avaliações de codificação que não são SWEBench
Novo benchmark muito legal
Interessante que o modelo sabia não apenas que estava em uma avaliação, mas a tarefa exata e a organização que o executava
37,77K