Vi har evaluert GPT-5 før utgivelse. GPT-5 er mindre villedende enn o3 på våre evals. GPT-5 nevner at den blir evaluert i 10-20 % av våre evalueringer, og vi finner svake bevis for at dette påvirker intrigeringsraten (f.eks. "dette er en klassisk AI-justeringsfelle").
12,81K