GPT-5 はリリース前に評価しました。 GPT-5 は、私たちの評価では o3 よりも欺瞞性が低くなります。 GPT-5は、評価の10〜20%で評価されていると述べていますが、これがその計画率に影響を与えるという弱い証拠を見つけました(例:「これは古典的なAIアライメントトラップです」)。
12.8K