基于目标的对话策略学习与失败处理
采用前视经验回放(HER)技术,通过利用过去的经验来改进基于强化学习代理训练的目标导向机器人操作任务的采样效率,本文提出了一种使用先前学习的简单任务来引导代理在探索中选择更有益动作的方法。我们通过在多个块操纵任务中与 HER 和其他更高效变体算法性能的对比实验中展示了使用我们提出的方法可以更快地学习有效策略,包括采样效率和计算时间。
Oct, 2023
本文提出了一种基于 HER 和 MERL 的方法 ——SHER,采用失败经验重用和最大熵概率推断模型,用于在具有稀疏奖励的 DRL 环境中进行有效学习,并在 Open AI 机器人操作任务中进行了评估,实验结果表明,相对于 HER 及其变种,我们提出的 SHER 在具有挑战性的手部操作任务中取得了最新的成果,并且稳定性更高,在不同随机种子上实现了非常相似的表现。
Feb, 2020
本文提出使用分层强化学习(VHRL)框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法,以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标,与包括变形金刚在内的最先进的对话模型相比,证明我们的方法在人类评估和自动指标方面提供显着的改进。
Sep, 2019
本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation,该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径,以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中,实验证明了该算法的有效性和优越性。
Jun, 2019
本研究提出了一种名为 Robust Model-based Hindsight Experience Replay(RoMo-HER)的框架,利用机器人操作环境中的动力学模型增强样本效率,相比于其他模型在多个机器人模拟环境中具有更高的样本效率。
Jun, 2023
提出了一种将对抗训练分解成两步的方法,通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中,以引导对话策略学习。该方法适用于在线和离线强化学习方法,可获得显著的任务成功率,并有将知识从现有领域转移到新领域的潜力。
Apr, 2020
通过整合演示(demonstrations)的方法,本研究探讨如何加速强化学习的收敛速度,以达到能够到达任何目标的策略,并且在与其他模仿学习算法训练的代理相比表现更好。
Jun, 2019
本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统,该方法包括强化学习和模仿学习,通过神经网络来优化并能够从用户教学中进行学习。实验结果表明,该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误,并在模仿学习阶段之后应用强化学习提高完成任务的能力。
Apr, 2018
本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。
Sep, 2017