Kami telah mengevaluasi GPT-5 sebelum dirilis. GPT-5 kurang menipu daripada o3 pada eval kita. GPT-5 menyebutkan bahwa itu sedang dievaluasi dalam 10-20% dari eval kami dan kami menemukan bukti lemah bahwa ini memengaruhi tingkat liciknya (misalnya "ini adalah jebakan penyelarasan AI klasik").
9,48K