關於SFT的概括 從強化學習的角度看,獎勵修正
與作者討論:
9.11K