Dec, 2021

作为对齐实验室的通用语言助手

TL;DR本研究旨在构建一个与人类价值观相一致的通用文本助手,通过简单的基线技术和评估,我们发现适度干预的效益随着模型大小的增加而增长,并且不会影响大模型的性能;二分类和模仿学习亦具善意,但此外,排序偏好建模方法在对齐训练任务中表现更佳且尺度更合适;最终我们研究通过 “偏好模型预训练” 阶段达到在人类喜好上微调时的样本效率提升。