利用人类反馈提升开放领域聊天机器人

Aug, 2022

利用人类反馈提升开放领域聊天机器人

Towards Boosting the Open-Domain Chatbot with Human Feedback

Hua Lu, Siqi Bao, Huang He, Fan Wang, Hua Wu...

TL;DR本文提出了一种新颖高效的方法 Diamante 通过收集并利用两种人类反馈（包括显式示范和隐含偏好）来增强开放域聊天机器人，并介绍使用的生成 - 评估联合训练来增强与人类偏好的对齐，综合实验表明 Diamante 数据集和联合训练模式可以显著提高中文预训练对话模型的性能。

Abstract

Many open-domain dialogue models pre-trained with social media comments can generate coherent replies but have difficulties producing engaging responses when interacting with real users. This phenomenon might mainly result from the deficiency of annotated human-human conversations and

open-domain dialogue models human feedback implicit preference chinese chit-chat dataset joint training

发现论文，激发创造

社交媒体语境下的对话模型建立方法

本文介绍了一种通过模仿社交媒体上的非正式互动改善系统的原始会话能力的方法，并利用 Reddit 上的过滤评论数据作为 seq2seq 生成器的额外上下文，以提高开放域对话系统的能力。

Jun, 2022

增加闲聊功能以增强任务导向对话

提出了一种人工智能虚拟助手对话系统，名为 ACCENTOR，目的是将聊天型机器人和任务导向型系统相结合以实现更加 engaging 和 interative 的交谈体验，通过添加 chit-chat 的方式，将人机交互设计更为实用和有趣。研究采用全新的数据收集和生成方法来提高系统的性能，并设计了三种不同的模型进行实验，与现有任务导向型四种方法相比，实现了更具情境感和人性化的 chit-chat 响应。

Oct, 2020

面向共情的开放领域对话模型：新基准和数据集

本文提出了一个新的共情对话生成指标和一个基于具有情感情境的 25k 个会话的新数据集 EmpatheticDialogues，实验表明使用我们的数据集的对话模型被人类评估员认为比仅在大规模互联网对话数据上训练的模型更具有移情能力，同时还通过实验比较了对情感回应进行的对话模型调整，利用现有模型或数据集而无需重新训练完整模型

Nov, 2018

使用自我对战近似交互式人类评估的开放域对话系统

本文提出一种交互式的人工评估对话质量的方法，并介绍了一种基于自我对话的度量方式，该方式可以更好地捕捉对话模型的质量，同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较，研究表明，这种度量方式优于目前已知的所有自动化方法，同时也优于静态会话的人工评估。最后，开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。

Jun, 2019

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

从自由文本人类反馈中学习 -- 收集新数据集还是扩展现有数据集？

通过人类的自由文本反馈进行学习对于对话系统至关重要，本文通过研究多个常用的对话数据集，包括 MultiWoZ，SGD，BABI，PersonaChat，Wizards-of-Wikipedia 和 Self-Feeding Chatbot 的人机分离数据集，发现了数据集的组成情况，误差类型，用户响应类型以及它们之间的关系，并研究了将这些数据包含在语言生成模型 (response generation) 中的影响。

Oct, 2023

对话中利用部署数据的隐式反馈

通过学习用户与已部署模型之间的自然对话，我们研究了提高社交对话代理的方法，无需额外的注释。利用用户响应长度、情感以及未来人类发言中的反应等信号来隐式衡量机器生成发言的质量。我们的实验使用了 BlenderBot（Xu 等，2023 年）的公开发布的部署数据。人工评估表明，我们的新模型在基线回复上有所改进；然而，我们发现一些代理信号也可能导致具有不良特性的生成。例如，优化对话长度可能导致比基线更具争议性或不友好的生成，而优化积极情感或反应则可能减少这些行为。

Jul, 2023

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022