奖励关键之处：面向任务的对话的逐步强化学习

Jun, 2024

奖励关键之处：面向任务的对话的逐步强化学习

Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue

Huifang Du, Shuqin Li, Minghao Wu, Xuejing Feng, Yuan-Fang Li...

TL;DR通过引入逐步奖励机制，我们的方法在理解和生成任务中对强化学习进行了扩展，实现了平衡优化，提高了任务导向对话系统的性能，并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比，我们的方法还展现了在低资源环境中的出色少样本能力。

Abstract

reinforcement learning (RL) is a powerful approach to enhance task-oriented dialogue (TOD) systems. However, existing RL methods tend to mainly focus on generation tasks, such as dialogue policy learning (DPL) or response generation (RG), while neglecting →

reinforcement learning task-oriented dialogue systems dialogue state tracking step-by-step rewards tod systems

发现论文，激发创造

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

奖励的神奇能力及其驯服之法：基于任务导向对话系统的奖励学习案例研究

本文介绍了两种常见的奖励函数学习方法，并使用这些方法指导 end-to-end ToD 代理的训练，在 Multiwoz 2.0 数据集上取得了有竞争力的结果。

Feb, 2023

通过对话策略和语言生成之间的替代优化构建面向任务的视觉对话系统

本研究提出一种新的框架，可有效学习任务导向视觉对话系统的最优对话策略，并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。

Sep, 2019

基于深度强化学习的任务导向对话模型端到端优化

介绍了一种基于神经网络的任务导向对话系统，可以使用深度强化学习进行端到端优化，可跟踪对话状态，与知识库交互，并将查询结果整合到代理人的响应中，以成功完成任务导向对话。

Nov, 2017

基于工作流的任务导向对话生成

本文提出了一种基于强化学习的新框架，用于生成与给定工作流程对齐的对话回复，通过结合 ComplianceScorer 评估指标和交互式采样技术的 RL 优化过程，评估结果表明该框架在任务导向对话系统上优于基线方法，并能生成遵循预定工作流程且自然流畅的对话回复。

Nov, 2023

为什么导向式对话策略学习表现良好？理解对抗性学习及其替代方案的作用

本文介绍了一种通过分析对话策略和奖励估计器的目标函数，从而消除对抗性学习对奖励估计和对话策略学习的影响，同时保留其优势的方法，该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。

Jul, 2023

增强端到端多任务对话系统：内在动机强化学习算法的研究，以改善训练和适应性

通过采用内在激励强化学习算法来测量状态访问的频率和鼓励探索，本研究旨在改善对话系统的政策，继而有效提高性能指标并拓展领域范围。

Jan, 2024

对话生成的深度强化学习

本研究基于强化学习，建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。

Jun, 2016

分布式结构化演员 - 评论家强化学习在通用对话管理中的应用

本篇论文主要探讨针对特定任务的语音对话系统，重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略，并以神经网络为函数逼近器的方式，探索深度强化学习算法在对话决策中的应用。

Sep, 2020

通过强化学习学习生成对话生成的提示

本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容，并通过 multi-task learning 提高该方法的泛化能力和适应性，实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。

Jun, 2022