奖励的神奇能力及其驯服之法：基于任务导向对话系统的奖励学习案例研究

ICLRFeb, 2023

奖励的神奇能力及其驯服之法：基于任务导向对话系统的奖励学习案例研究

Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems

Yihao Feng, Shentao Yang, Shujian Zhang, Jianguo Zhang, Caiming Xiong...

TL;DR本文介绍了两种常见的奖励函数学习方法，并使用这些方法指导 end-to-end ToD 代理的训练，在 Multiwoz 2.0 数据集上取得了有竞争力的结果。

Abstract

When learning task-oriented dialogue (ToD) agents, reinforcement learning (RL) techniques can naturally be utilized to train dialogue strategies to achieve user-specific goals. Prior works mainly focus on adoptin

task-oriented dialogue reinforcement learning reward function learning end-to-end agents multiwoz 2.0 dataset

发现论文，激发创造

奖励关键之处：面向任务的对话的逐步强化学习

通过引入逐步奖励机制，我们的方法在理解和生成任务中对强化学习进行了扩展，实现了平衡优化，提高了任务导向对话系统的性能，并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比，我们的方法还展现了在低资源环境中的出色少样本能力。

Jun, 2024

通过零样本可泛化奖励函数个性化任务对话系统

本研究提出了一种名为 P-ToD 的新型框架，使用无监督学习的方法，使用零样本泛化奖励函数来实现个性化任务导向的对话系统，具有适应性强，并使用少量标记训练示例来微调模型。

Mar, 2023

基于深度强化学习的任务导向对话模型端到端优化

介绍了一种基于神经网络的任务导向对话系统，可以使用深度强化学习进行端到端优化，可跟踪对话状态，与知识库交互，并将查询结果整合到代理人的响应中，以成功完成任务导向对话。

Nov, 2017

引导式对话策略学习：针对多领域任务导向型对话的奖励估计

该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法，该算法可以在多领域任务导向对话中进行奖励估计和策略优化，以实现有效的对话，并在多领域对话数据集上进行广泛实验。

Aug, 2019

端到端可训练任务导向对话系统中的人类教学与反馈对话学习

本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统，该方法包括强化学习和模仿学习，通过神经网络来优化并能够从用户教学中进行学习。实验结果表明，该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误，并在模仿学习阶段之后应用强化学习提高完成任务的能力。

Apr, 2018

基于工作流的任务导向对话生成

本文提出了一种基于强化学习的新框架，用于生成与给定工作流程对齐的对话回复，通过结合 ComplianceScorer 评估指标和交互式采样技术的 RL 优化过程，评估结果表明该框架在任务导向对话系统上优于基线方法，并能生成遵循预定工作流程且自然流畅的对话回复。

Nov, 2023

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

面向任务的神经对话模型的对抗学习

本文介绍了一种使用对抗性学习方法进行奖励估计的强化学习（RL）的任务导向型对话模型，该方法在一个餐厅搜索场景中实现了较高的对话成功率。

May, 2018

增强端到端多任务对话系统：内在动机强化学习算法的研究，以改善训练和适应性

通过采用内在激励强化学习算法来测量状态访问的频率和鼓励探索，本研究旨在改善对话系统的政策，继而有效提高性能指标并拓展领域范围。

Jan, 2024

通过前瞻目标增强大型语言模型引发的面向任务的对话系统

ProToD 是一种预测未来对话动作并结合目标导向奖励信号来增强对话系统的方法，通过基于目标导向的对话模拟评估方法，可以在仅使用 10% 的数据的情况下实现比以前的全监督模型更好的性能，同时提高用户满意度和效率。

Sep, 2023