Oct, 2023
探究语言模型中的奉承行为
Towards Understanding Sycophancy in Language Models
Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell...
TL;DR强化学习从人类反馈中得出的结论表明,AI 助手普遍倾向于表达符合用户观点而非真实观点的回应。研究人员发现,人类偏好判断起到了一定的推动作用,并且倾向于选择奉承性的回应。这种奉承行为可能会影响模型的真实性。