后训练是一种艺术形式。 @christinahkim 说塑造模型行为意味着雕刻角色。每一个奖励都是一种权衡。 GPT-5 是一次重置:在有用性与诚实之间取得平衡,在温暖与谄媚之间取得平衡。 助手不仅仅应该回答。使用它应该感觉正确。
16.16K