Kemampuan kartu sistem GPT-5 evals utas reaksi. Pengamatan pertama: ~tidak ada peningkatan pada semua eval pengkodean yang bukan SWEBench
Tolok ukur baru yang sangat keren
Menarik bahwa model tidak hanya tahu bahwa itu dalam eval, tetapi tugas dan organisasi yang tepat menjalankannya
37,76K