Sep, 2022

通过有针对性的人类判断来提高对话代理的对齐

TL;DR利用强化学习和人类反馈训练信息检索对话代理程序Sparrow,并在模型语句询问用户偏好时提供支持性证据, 比Prompted language baselines更有帮助、更正确和更无害,但需要注意分布偏差。