逆境创出新局：如何将错误反馈转化为准确标签

Oct, 2022

逆境创出新局：如何将错误反馈转化为准确标签

When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad Responses into Good Labels

Weiyan Shi, Emily Dinan, Kurt Shuster, Jason Weston, Jing Xu

TL;DR本研究提出 Juicer 框架，利用二进制和自由形式的人类反馈，训练满意分类器和回复校正器，最终通过使用积极和消极反馈，通过训练改进了对话模型。

Abstract

Deployed dialogue agents have the potential to integrate human feedback to continuously improve themselves. However, humans may not always provide explicit signals when the chatbot makes mistakes during interacti

dialogue agents human feedback juicer framework satisfaction classifier training

发现论文，激发创造

对话中利用部署数据的隐式反馈

通过学习用户与已部署模型之间的自然对话，我们研究了提高社交对话代理的方法，无需额外的注释。利用用户响应长度、情感以及未来人类发言中的反应等信号来隐式衡量机器生成发言的质量。我们的实验使用了 BlenderBot（Xu 等，2023 年）的公开发布的部署数据。人工评估表明，我们的新模型在基线回复上有所改进；然而，我们发现一些代理信号也可能导致具有不良特性的生成。例如，优化对话长度可能导致比基线更具争议性或不友好的生成，而优化积极情感或反应则可能减少这些行为。

Jul, 2023

从对自然语言反馈的对抗修改中学习即兴聊天机器人

该研究通过引入生成对抗模型，将含杂谈反馈转换成具有自然样式的回复，可用于训练聊天机器人模型，提高正确回复的准确率。

Oct, 2020

大规模会话型 AI 代理的基于反馈的自学习

本研究提出了一种自学习系统，使用用户 - 系统交互反馈信号自动纠正对话式人工智能系统中出现的各种组件错误，并通过吸收马尔可夫链模型挖掘这些反馈信号中的共同模式，进行可扩展的改进，实现了大规模对话式人工智能系统的自主学习，能显著降低过多次错误和缺陷。

Nov, 2019

从语言反馈中学习奖励

本研究采用自然语言反馈作为人工智能代理的学习信号，使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数，来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习，并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。

Sep, 2020

部署后学习新技能：通过人类反馈改进基于互联网的开放领域对话

研究利用互联网检索获取更新信息并从人类反馈中提升网络聊天技能的算法，并表明了利用 Director 模型可以显著提高性能。

Aug, 2022

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

人机对话学习

本文探讨了使用增强学习的方式，通过与人类交互并接受其反馈来提高对话代理的能力，模拟了在人工环境中的各种学习情况，介绍了适用于此类学习的模型，并通过机械土耳其实验验证了此方法。

Nov, 2016

部署后从对话中学习：聊天机器人，喂饱自己！

本研究提出自我反馈聊天机器人，通过从参与的对话中提取新的训练样本和估计用户满意度来改进聊天机器人的对话能力，并在 PersonaChat chit-chat 数据集上进行实验得到了显著的性能提升。

Jan, 2019

使用大规模人类反馈数据进行对话响应排名训练

通过社交媒体反馈数据构建训练集，在 133M 个人类反馈数据上训练了基于 GPT-2 的 DialogRPT 模型，结合评分模型排名机器生成的对话回复，并通过人类评估证明其效果优于基线模型。

Sep, 2020

基于策略相关人类反馈的交互式学习

本文研究了利用正反馈进行与人类互动学习行为的问题，并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题，该算法能成功地在实体机器人上学习多种行为。

Jan, 2017