Feb, 2023

大型语言模型内在的道德自我修正能力

TL;DR通过三个实验,我们得出结论:通过人类反馈训练的强化学习语言模型具有道德自我纠正的能力,具备遵守伦理原则的潜力。