对话中利用部署数据的隐式反馈

Jul, 2023

Leveraging Implicit Feedback from Deployment Data in Dialogue

Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston

TL;DR通过学习用户与已部署模型之间的自然对话，我们研究了提高社交对话代理的方法，无需额外的注释。利用用户响应长度、情感以及未来人类发言中的反应等信号来隐式衡量机器生成发言的质量。我们的实验使用了 BlenderBot（Xu 等，2023 年）的公开发布的部署数据。人工评估表明，我们的新模型在基线回复上有所改进；然而，我们发现一些代理信号也可能导致具有不良特性的生成。例如，优化对话长度可能导致比基线更具争议性或不友好的生成，而优化积极情感或反应则可能减少这些行为。

Abstract

We study improving social conversational agents by learning from natural dialogue between users and a deployed model, without extra annotations. To implicitly measure the quality of a machine-generated utterance,

social conversational agents natural dialogue machine-generated utterance user response length sentiment

发现论文，激发创造

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

部署后学习新技能：通过人类反馈改进基于互联网的开放领域对话

研究利用互联网检索获取更新信息并从人类反馈中提升网络聊天技能的算法，并表明了利用 Director 模型可以显著提高性能。

Aug, 2022

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

部署后从对话中学习：聊天机器人，喂饱自己！

本研究提出自我反馈聊天机器人，通过从参与的对话中提取新的训练样本和估计用户满意度来改进聊天机器人的对话能力，并在 PersonaChat chit-chat 数据集上进行实验得到了显著的性能提升。

Jan, 2019

从语言反馈中学习奖励

本研究采用自然语言反馈作为人工智能代理的学习信号，使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数，来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习，并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。

Sep, 2020

社交对话的神经响应排名：一种数据高效的方法

本文提出了使用神经排序器从未标记的数据中有效地训练社交对话系统的方法，并展示了使用该方法通过优化长度作为目标的排序器在性能上优于优化用户评级的排序器，从而可简化未来社交对话代理的数据收集。

Nov, 2018

人机对话学习

本文探讨了使用增强学习的方式，通过与人类交互并接受其反馈来提高对话代理的能力，模拟了在人工环境中的各种学习情况，介绍了适用于此类学习的模型，并通过机械土耳其实验验证了此方法。

Nov, 2016

具有隐式用户人设检测的个性化对话生成器

提出了一种基于用户人格检测的个性化对话生成器，该方法使用条件变分推理建立用户潜在人格模型并利用后验鉴别正则化提高训练效果，在实证研究中实现比现有技术更高的对用户人格关注和提升了对话品质的效果。

Apr, 2022

从对自然语言反馈的对抗修改中学习即兴聊天机器人

该研究通过引入生成对抗模型，将含杂谈反馈转换成具有自然样式的回复，可用于训练聊天机器人模型，提高正确回复的准确率。

Oct, 2020

奖励数百万用户与聊天机器人的现实世界互动

该研究探讨了如何使用人类反馈来有效地开发高度吸引力的社交聊天机器人，通过伪标签和奖励模型提高了聊天机器人的用户积极性和留存率，从而达到使用者参与度优先的目的。研究结果表明，这种方法可以将聊天长度增加高达 70％，使 GPT-J 6B 模型的用户留存率增加超过 30％。未来的工作将使用奖励模型实现数据飞轮，以轮换地微调语言模型和奖励模型。

Mar, 2023