GPT-5 systeemkaart capaciteitsbeoordelingen reacties thread. Eerste observatie: ~geen verbetering op alle coderingsevaluaties die geen SWEBench zijn.
Zeer coole nieuwe benchmark
Interessant dat het model niet alleen wist dat het in een evaluatie was, maar ook de exacte taak en organisatie die het uitvoerde.
37,77K