离线强化学习对话评估

Sep, 2022

Dialogue Evaluation with Offline Reinforcement Learning

Nurul Lubis, Christian Geishauser, Hsien-Chin Lin, Carel van Niekerk, Michael Heck...

TL;DR本文提出了使用离线强化学习作为对话系统评估的一种方法，该方法基于一个静态语料库。通过训练一个离线强化学习批评家，我们展示了这种评估方法可用于各种类型的对话系统，而且与人类评判具有强相关性。

Abstract

task-oriented dialogue systems aim to fulfill user goals through natural language interactions. They are ideally evaluated with human users, which however is unattainable to do at every iteration of the development phase. →

task-oriented dialogue systems simulated users offline metrics reinforcement learning external evaluators

发现论文，激发创造

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

学习用于在线对话评估的无参考度量

本文提出了一种基于预训练语言模型从句子中提取潜在表示并利用它们之间的时间关系进行对话质量评估的自动评估度量标准，不需要人工生成参考回复并在推理过程中不需要真实响应。在在线环境中，该模型与人类评注的相关性更高。

May, 2020

评估自然语言生成的任务导向对话中无监督度量的相关性

本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高，更适合适用于提供多个参考数据的数据集。同时，本文倡导更具挑战性的数据集的建构。

Jun, 2017

任务完成对话用户模拟器

该研究论文介绍了用于电影预订领域的用户模拟器，它利用规则和收集到的数据，并支持电影票预订和电影寻找两个任务。为了实现对对话框架的经验算法比较，论文提出了一种新的模拟框架，展示了多个代理的思路，并详细介绍了将自己的代理添加到所提出的框架中进行测试的过程。

Dec, 2016

设计精确和鲁棒的对话响应评估器

本文提出建立无参考评估器以及利用半监督训练和预训练（掩码）语言模型的方法来改进自动对话响应评估器的性能，实验结果表明所提出的自动评估器与人类判断具有很强的相关性（>0.6）并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。

Apr, 2020

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱，而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016

离线强化学习在对话回复生成中的有效性

研究通过离线强化学习方法在对话响应生成中最大化序列级目标，对多个数据集、模型和度量进行全面评估，离线强化学习相比于教师强制训练能够明显提高性能却不会导致训练不稳定或牺牲实际训练预算。

Jul, 2023

使用策略梯度的端到端离线目标导向型对话策略学习

本文提出了一种离线强化学习方法，可从未标注的语料库中学习，既可以在话语级别上进行优化又可以在对话级别上进行优化，解决了现有方法对话级别考虑不足的问题，并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。

Dec, 2017

端到端可训练任务导向对话系统中的人类教学与反馈对话学习

本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统，该方法包括强化学习和模仿学习，通过神经网络来优化并能够从用户教学中进行学习。实验结果表明，该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误，并在模仿学习阶段之后应用强化学习提高完成任务的能力。

Apr, 2018