恭喜 @OpenAI 成功发布了他们的 GPT-4.1 模型 :) 很高兴看到他们的团队使用 @scale_AI 的 MultiChallenge 基准测试来衡量多轮指令的执行能力
22.14K