una singola mossa del discriminatore nel self-play LLM è "creare un ambiente RL davvero buono"
8,37K