部署后学习新技能:通过人类反馈改进基于互联网的开放领域对话
通过学习用户与已部署模型之间的自然对话,我们研究了提高社交对话代理的方法,无需额外的注释。利用用户响应长度、情感以及未来人类发言中的反应等信号来隐式衡量机器生成发言的质量。我们的实验使用了 BlenderBot(Xu 等,2023 年)的公开发布的部署数据。人工评估表明,我们的新模型在基线回复上有所改进;然而,我们发现一些代理信号也可能导致具有不良特性的生成。例如,优化对话长度可能导致比基线更具争议性或不友好的生成,而优化积极情感或反应则可能减少这些行为。
Jul, 2023
该研究致力于探究用户交互对于问答系统的后部署改进效果,提出 FeedbackQA 数据集并使用其中的交互反馈信息训练神经模型,在提高 QA 系统准确性的同时,提供答案的说明以帮助用户做出正确决策。
Apr, 2022
本研究提出了一种基于重要性抽样的反馈加权学习方法,利用二进制的用户反馈来改进最初的监督系统。作者在文档分类和对话问答数据集上进行模拟实验,并利用用户提供的二进制反馈来验证方法的有效性和可行性。实验结果表明,反馈加权学习可以显著地提升监督系统的性能,并且具有潜在的应用前景。
Nov, 2020
提出一种基于人类监督的强化学习在线部署框架,包含两种方法:一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署,二是在监督信号到达时在线微调模型。通过实证验证,这些方法有效地应用于机器人运动控制和交通信号控制任务中。
Mar, 2023
本文介绍了一种通过模仿社交媒体上的非正式互动改善系统的原始会话能力的方法,并利用 Reddit 上的过滤评论数据作为 seq2seq 生成器的额外上下文,以提高开放域对话系统的能力。
Jun, 2022
本文探讨了使用增强学习的方式,通过与人类交互并接受其反馈来提高对话代理的能力,模拟了在人工环境中的各种学习情况,介绍了适用于此类学习的模型,并通过机械土耳其实验验证了此方法。
Nov, 2016
本研究提出自我反馈聊天机器人,通过从参与的对话中提取新的训练样本和估计用户满意度来改进聊天机器人的对话能力,并在 PersonaChat chit-chat 数据集上进行实验得到了显著的性能提升。
Jan, 2019