部署后学习新技能：通过人类反馈改进基于互联网的开放领域对话

Aug, 2022

部署后学习新技能：通过人类反馈改进基于互联网的开放领域对话

Learning New Skills after Deployment: Improving open-domain internet-driven dialogue with human feedback

Jing Xu, Megan Ung, Mojtaba Komeili, Kushal Arora, Y-Lan Boureau...

TL;DR研究利用互联网检索获取更新信息并从人类反馈中提升网络聊天技能的算法，并表明了利用 Director 模型可以显著提高性能。

Abstract

Frozen models trained to mimic static datasets can never improve their performance. Models that can employ internet-retrieval for up-to-date information and obtain feedback from humans during deployment provide the promise of both adapting to new information, and improving their performance. In this work we study how to improve →

internet-driven conversational skills human feedback supervised learning feedback algorithms director model

发现论文，激发创造

对话中利用部署数据的隐式反馈

通过学习用户与已部署模型之间的自然对话，我们研究了提高社交对话代理的方法，无需额外的注释。利用用户响应长度、情感以及未来人类发言中的反应等信号来隐式衡量机器生成发言的质量。我们的实验使用了 BlenderBot（Xu 等，2023 年）的公开发布的部署数据。人工评估表明，我们的新模型在基线回复上有所改进；然而，我们发现一些代理信号也可能导致具有不良特性的生成。例如，优化对话长度可能导致比基线更具争议性或不友好的生成，而优化积极情感或反应则可能减少这些行为。

Jul, 2023

基于互联网的对话生成

本研究探讨在对话过程中通过搜索引擎来提供最新的知识，在用于生成回复时综合搜索结果的效果优于其他方法，如无搜索或基于 FAISS 检索模型的方法。

Jul, 2021

使用互动反馈提高问答系统部署后的准确性和可解释性

该研究致力于探究用户交互对于问答系统的后部署改进效果，提出 FeedbackQA 数据集并使用其中的交互反馈信息训练神经模型，在提高 QA 系统准确性的同时，提供答案的说明以帮助用户做出正确决策。

Apr, 2022

使用反馈加权学习改进部署后的对话问答系统

本研究提出了一种基于重要性抽样的反馈加权学习方法，利用二进制的用户反馈来改进最初的监督系统。作者在文档分类和对话问答数据集上进行模拟实验，并利用用户提供的二进制反馈来验证方法的有效性和可行性。实验结果表明，反馈加权学习可以显著地提升监督系统的性能，并且具有潜在的应用前景。

Nov, 2020

离线强化学习与人类反馈的部署

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023

社交媒体语境下的对话模型建立方法

本文介绍了一种通过模仿社交媒体上的非正式互动改善系统的原始会话能力的方法，并利用 Reddit 上的过滤评论数据作为 seq2seq 生成器的额外上下文，以提高开放域对话系统的能力。

Jun, 2022

人机对话学习

本文探讨了使用增强学习的方式，通过与人类交互并接受其反馈来提高对话代理的能力，模拟了在人工环境中的各种学习情况，介绍了适用于此类学习的模型，并通过机械土耳其实验验证了此方法。

Nov, 2016

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

部署后从对话中学习：聊天机器人，喂饱自己！

本研究提出自我反馈聊天机器人，通过从参与的对话中提取新的训练样本和估计用户满意度来改进聊天机器人的对话能力，并在 PersonaChat chit-chat 数据集上进行实验得到了显著的性能提升。

Jan, 2019

基于对话的语言学习

研究人员在机器学习和自然语言理解方面的不懈探索中探讨了基于对话的语言学习，发现预测前瞻是一种有前途的学习策略，并表明它可以在没有奖励监督的情况下正确地回答问题。

Apr, 2016