Aug, 2022

利用人类反馈提升开放领域聊天机器人

TL;DR本文提出了一种新颖高效的方法 Diamante 通过收集并利用两种人类反馈(包括显式示范和隐含偏好)来增强开放域聊天机器人,并介绍使用的生成 - 评估联合训练来增强与人类偏好的对齐,综合实验表明 Diamante 数据集和联合训练模式可以显著提高中文预训练对话模型的性能。