Feb, 2023

使用人类偏好进行语言模型预训练

TL;DR通过在预训练中引入人类的反馈,实现对于语言模型的生成文本的可控和可导向性,减少哪些偏离人类喜好的内容的生成,并且在标准的预训练和任务特定的微调中保持下游任务表现。推荐在训练开始时,就结合人类反馈,不再使用模仿学习的方式预训练语言模型。