在LLM自我對弈中,判別器的一個單一行動是「創建一個非常好的強化學習環境」
9.13K