在訓練過程中強迫大型語言模型變得邪惡,從長遠來看可以使它們變得更友善。
6.6K