Thread di reazioni alla valutazione delle capacità della scheda di sistema GPT-5. Prima osservazione: ~nessun miglioramento in tutte le valutazioni di codifica che non sono SWEBench.
Nuovo benchmark molto interessante
Interessante che il modello sapesse non solo che era in una valutazione, ma anche il compito esatto e l'organizzazione che la stava eseguendo.
37,76K