任务完成对话系统的反高估对话策略学习

ACLJul, 2022

任务完成对话系统的反高估对话策略学习

Anti-Overestimation Dialogue Policy Learning for Task-Completion Dialogue System

Chang Tian, Wenpeng Yin, Marie-Francine Moens

TL;DR本论文提出了一种动态部分平均估计器（DPAV），将其纳入深度 Q 网络作为对话策略，解决了基于强化学习的对话策略中过高估计问题，实验表明该方法在三个不同领域的对话数据集上具有与顶尖基线相当的结果，与其他方法相比，具有更低的计算负荷，同时还从理论上证明了该方法的收敛性和偏差上下界。

Abstract

A dialogue policy module is an essential part of task-completion dialogue systems. Recently, increasing interest has focused on reinforcement learning (RL)-based →

dialogue policy reinforcement learning overestimation problem dynamic partial average estimator deep q-network

发现论文，激发创造

为什么导向式对话策略学习表现良好？理解对抗性学习及其替代方案的作用

本文介绍了一种通过分析对话策略和奖励估计器的目标函数，从而消除对抗性学习对奖励估计和对话策略学习的影响，同时保留其优势的方法，该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。

Jul, 2023

高效神经网络对话策略优化中的不确定性估计

本文研究了在对话管理环境下，采用深度强化学习框架（DQN）进行不确定性估计的方法，并与常见的基于高斯过程的方法进行了对比和基准测试，并对优化策略进行了探讨。

Nov, 2017

使用双阶段训练的策略网络用于对话系统

本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统，演示了在深度强化学习下优于高斯过程方法，可以有效地训练部分可观察马尔可夫决策过程的对话系统，有效提高学习速度，所有实验在 DSTC2 餐厅领域数据集上进行。

Jun, 2016

引导式对话策略学习：针对多领域任务导向型对话的奖励估计

该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法，该算法可以在多领域任务导向对话中进行奖励估计和策略优化，以实现有效的对话，并在多领域对话数据集上进行广泛实验。

Aug, 2019

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

动态对话策略的连续强化学习

为了解决任务导向的对话系统在学习新知识时需要不断适应的问题，我们提出了一种动态对话策略变换器 (DDPT)，它是一种能够无缝集成新知识、处理大状态空间并在暴露到未见过的领域时获得重要的零 - shot 性能的新的动态架构。我们提供一个不间断的学习算法、基线架构和度量标准来评估不间断学习模型。

Apr, 2022

通过随机奖励估计的半监督对话策略学习

本文提出了用于半监督策略学习的新型奖励学习方法，该方法借助动态模型来计算奖励值，并结合动作嵌入进行奖励函数的泛化，从而优于其他竞争性策略学习基线，适用于任务导向型对话系统。

May, 2020

三思而后言：通过计划单次对话来改善多次对话策略

本文提出了一种基于多任务学习框架的 Planning Enhanced Dialog Policy (PEDP) 方法，使用模型规划来模拟单动作对话，从而增强多动作预测，实现了相对于现有状态下最先进方法的 3% 提高，达到了 90.6% 的可靠任务成功率。

Apr, 2022

检索与记忆：使用多动作记忆的对话策略学习

本研究提出了一种 “检索和记忆” 框架，该框架首先使用神经上下文感知检索模块从训练集中检索多个候选系统操作，然后使用存储增强的多解码器网络在候选操作的条件下生成系统操作的方法，该方法能降噪自适应选择候选操作中的关键信息。实验表明该方法在上下文到回应生成任务中具有竞争力。

Jun, 2021

强化学习任务导向对话管理基准测试环境

本文旨在提供用于对话模型开发与评估的一组具有挑战性的模拟环境，其中包括常用的参数算法和非参数算法，并使用公共 PyDial 工具包实现了这些环境和策略模型，以建立一个实验测试平台并促进可重现性的实验。

Nov, 2017