Karta systemowa GPT-5 ocena możliwości reakcje w wątku. Pierwsza obserwacja: ~brak poprawy we wszystkich ocenach kodowania, które nie są SWEBench.
Bardzo fajny nowy benchmark
Interesujące, że model wiedział nie tylko, że jest w ocenie, ale także dokładne zadanie i organizację, która to przeprowadza.
37,77K