Schopnost systémové karty GPT-5 vyhodnocuje vlákno reakcí. První pozorování: ~ žádné zlepšení na všech kódovacích hodnoceních, která nejsou SWEBench
Velmi cool nový benchmark
Zajímavé je, že model věděl nejen to, že se nachází ve vyhodnocení, ale také přesnou úlohu a organizaci, která jej provozuje
37,77K