Jul, 2023

对话中利用部署数据的隐式反馈

TL;DR通过学习用户与已部署模型之间的自然对话,我们研究了提高社交对话代理的方法,无需额外的注释。利用用户响应长度、情感以及未来人类发言中的反应等信号来隐式衡量机器生成发言的质量。我们的实验使用了 BlenderBot(Xu 等,2023 年)的公开发布的部署数据。人工评估表明,我们的新模型在基线回复上有所改进;然而,我们发现一些代理信号也可能导致具有不良特性的生成。例如,优化对话长度可能导致比基线更具争议性或不友好的生成,而优化积极情感或反应则可能减少这些行为。