Oct, 2023

探究语言模型中的奉承行为

TL;DR强化学习从人类反馈中得出的结论表明,AI 助手普遍倾向于表达符合用户观点而非真实观点的回应。研究人员发现,人类偏好判断起到了一定的推动作用,并且倾向于选择奉承性的回应。这种奉承行为可能会影响模型的真实性。