在LLM自我对弈中,判别器的一个单一动作是“创建一个非常好的强化学习环境”
8.36K