Aug, 2022
利用人类反馈提升开放领域聊天机器人
Towards Boosting the Open-Domain Chatbot with Human Feedback
Hua Lu, Siqi Bao, Huang He, Fan Wang, Hua Wu...
TL;DR本文提出了一种新颖高效的方法 Diamante 通过收集并利用两种人类反馈(包括显式示范和隐含偏好)来增强开放域聊天机器人,并介绍使用的生成 - 评估联合训练来增强与人类偏好的对齐,综合实验表明 Diamante 数据集和联合训练模式可以显著提高中文预训练对话模型的性能。