基于目标的对话策略学习与失败处理

Aug, 2018

基于目标的对话策略学习与失败处理

Goal-oriented Dialogue Policy Learning from Failures

Keting Lu, Shiqi Zhang, Xiaoping Chen

TL;DR该论文提出了两种基于 Hindsight experience replay 的复杂方法，以解决对话学习中由于奖励稀疏和早期学习阶段成功对话次数的不足导致的对话策略学习困难问题。与现有的经验重放方法相比，该方法在学习速度上有更好的表现。

Abstract

reinforcement learning methods have been used for learning dialogue policies. However, learning an effective dialogue policy frequently requires prohibitively many conversations. This is partly because of the

reinforcement learning dialogue policy sparse rewards hindsight experience replay complex her methods

发现论文，激发创造

学习和复用原始行为以提高回顾经验重演的样本效率

采用前视经验回放（HER）技术，通过利用过去的经验来改进基于强化学习代理训练的目标导向机器人操作任务的采样效率，本文提出了一种使用先前学习的简单任务来引导代理在探索中选择更有益动作的方法。我们通过在多个块操纵任务中与 HER 和其他更高效变体算法性能的对比实验中展示了使用我们提出的方法可以更快地学习有效策略，包括采样效率和计算时间。

Oct, 2023

软提示体验回放

本文提出了一种基于 HER 和 MERL 的方法 ——SHER，采用失败经验重用和最大熵概率推断模型，用于在具有稀疏奖励的 DRL 环境中进行有效学习，并在 Open AI 机器人操作任务中进行了评估，实验结果表明，相对于 HER 及其变种，我们提出的 SHER 在具有挑战性的手部操作任务中取得了最新的成果，并且稳定性更高，在不同随机种子上实现了非常相似的表现。

Feb, 2020

用于开放领域对话的分层强化学习

本文提出使用分层强化学习（VHRL）框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法，以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标，与包括变形金刚在内的最先进的对话模型相比，证明我们的方法在人类评估和自动指标方面提供显着的改进。

Sep, 2019

透过事后目标生成进行探索

本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation，该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径，以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中，实验证明了该算法的有效性和优越性。

Jun, 2019

RoMo-HER: 基于模型的鲁棒性后见经验回放

本研究提出了一种名为 Robust Model-based Hindsight Experience Replay（RoMo-HER）的框架，利用机器人操作环境中的动力学模型增强样本效率，相比于其他模型在多个机器人模拟环境中具有更高的样本效率。

Jun, 2023

无需对抗性学习的引导式对话策略学习

提出了一种将对抗训练分解成两步的方法，通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中，以引导对话策略学习。该方法适用于在线和离线强化学习方法，可获得显著的任务成功率，并有将知识从现有领域转移到新领域的潜力。

Apr, 2020

目标驱动的模仿学习

通过整合演示（demonstrations）的方法，本研究探讨如何加速强化学习的收敛速度，以达到能够到达任何目标的策略，并且在与其他模仿学习算法训练的代理相比表现更好。

Jun, 2019

利用对手意识训练目标导向对话策略

提出了一种考虑对手行为的目标导向对话策略学习框架，通过对对手行为的估计来优化自身策略，实现在合作与竞争对话任务中的优越表现。

Apr, 2020

端到端可训练任务导向对话系统中的人类教学与反馈对话学习

本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统，该方法包括强化学习和模仿学习，通过神经网络来优化并能够从用户教学中进行学习。实验结果表明，该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误，并在模仿学习阶段之后应用强化学习提高完成任务的能力。

Apr, 2018

端到端可训练任务导向神经对话模型中的迭代策略学习

本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法，解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题，同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中，其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略，并且对话代理和用户模拟器均建立在端到端的神经网络模型上。

Sep, 2017