利用对手意识训练目标导向对话策略

Apr, 2020

利用对手意识训练目标导向对话策略

Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness

Zheng Zhang, Lizi Liao, Xiaoyan Zhu, Tat-Seng Chua, Zitao Liu...

TL;DR提出了一种考虑对手行为的目标导向对话策略学习框架，通过对对手行为的估计来优化自身策略，实现在合作与竞争对话任务中的优越表现。

Abstract

Most existing approaches for goal-oriented dialogue policy learning used reinforcement learning, which focuses on the target agent policy and simply treat the opposite agent policy as part of the environment. Whi

goal-oriented dialogue policy learning reinforcement learning opposite agent behavior policy estimation cooperative and competitive dialogue tasks

发现论文，激发创造

使用策略梯度的端到端离线目标导向型对话策略学习

本文提出了一种离线强化学习方法，可从未标注的语料库中学习，既可以在话语级别上进行优化又可以在对话级别上进行优化，解决了现有方法对话级别考虑不足的问题，并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。

Dec, 2017

无需对抗性学习的引导式对话策略学习

提出了一种将对抗训练分解成两步的方法，通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中，以引导对话策略学习。该方法适用于在线和离线强化学习方法，可获得显著的任务成功率，并有将知识从现有领域转移到新领域的潜力。

Apr, 2020

基于目标的对话策略学习与失败处理

该论文提出了两种基于 Hindsight experience replay 的复杂方法，以解决对话学习中由于奖励稀疏和早期学习阶段成功对话次数的不足导致的对话策略学习困难问题。与现有的经验重放方法相比，该方法在学习速度上有更好的表现。

Aug, 2018

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

基于角色感知奖励分解的多智能体面向任务的对话策略学习

本文介绍了一种采用多智能体对话策略学习的方法，用于同时训练系统和用户策略，并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明，该方法能够通过对话交互，使两个智能体成功完成任务。

Apr, 2020

基于迁移学习的目标驱动聊天机器人对话管理引导

本文使用迁移学习方法改善目标导向聊天机器人的高质量训练数据的不足，以提高其成功率，并展示该方法与其他处理方法的综合应用可取得最佳结果。

Feb, 2018

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

面向任务的神经对话模型的对抗学习

本文介绍了一种使用对抗性学习方法进行奖励估计的强化学习（RL）的任务导向型对话模型，该方法在一个餐厅搜索场景中实现了较高的对话成功率。

May, 2018

为什么导向式对话策略学习表现良好？理解对抗性学习及其替代方案的作用

本文介绍了一种通过分析对话策略和奖励估计器的目标函数，从而消除对抗性学习对奖励估计和对话策略学习的影响，同时保留其优势的方法，该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。

Jul, 2023

目标导向对话中意图建模、策略制定和响应调整

本文设计了一个目标导向的交互式系统，儿童可以通过诸如 “见面打招呼” 和 “Simon 说” 游戏等一系列交互活动与代理互动。研究人员探索了各种特征提取器和模型，以提高意图识别精度，并借助注意力模型等新颖的方式利用先前的用户和系统互动来进行对话适应，从有限的训练数据中引导学习的模型具有更好的性能。

Dec, 2019