Před vydáním jsme vyhodnotili GPT-5. GPT-5 je na našich evalech méně klamavý než o3. GPT-5 zmiňuje, že je vyhodnocován v 10-20 % našich hodnocení a nacházíme slabé důkazy o tom, že to ovlivňuje jeho míru intrik (např. "toto je klasická past na zarovnání AI").
24,49K