PcLast: 发现可规划的连续潜在状态
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
本文介绍了一种使用深度学习与经典规划相结合的无监督架构 LatPlan,通过提供一组图像对作为训练输入和一对初始和目标状态图像作为规划输入,可以使规划过程在符号潜在空间中找到计划并返回可视化的计划执行。
Apr, 2017
本文旨在通过恢复底层的低维潜在状态及其时间演化来改进动力系统的泛化能力和解释能力。我们提出了一种基于变分自编码器的实用算法,并在逼真的合成环境中进行了实证研究,证明我们能够高准确性地恢复潜在状态动力学,相应地实现高未来预测准确性,并且能够快速适应新环境。
Jun, 2024
学习代理中心状态表示的关键挑战在于在强化学习算法扩展和高效应用于下游任务时,仅对相关信息进行编码而舍弃无关信息。该研究考虑在更具挑战性的高维非马尔可夫环境中,从过去观察序列中译码状态的发现代理中心状态问题,并通过适应广义逆模型来解决此任务。研究结果包括确定性动力学环境下的渐近理论以及对替代直观算法的反例。我们通过对所提出的不同替代方案的代理中心状态发现能力进行了彻底的实证研究,其中对过去行动的分析尤为引人注目:我们表明,当正确使用时,过去行动可以使算法更加成功,而错误使用时则会导致严重的失败。
Apr, 2024
提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型,该模型适应地关注任务相关的动态学习,并同时充当稀疏奖励下计划的有效启发式方法,通过挑战性的视觉目标完成任务的评估,我们发现该方法较之前的无模型方法在性能上有了显著提高。
Dec, 2020
本文提出了一种基于深度潜变量模型的策略学习框架,在理论上和实践中检验了潜变量模型在优化强化学习中发挥的作用,同时提出了一种计算高效的规划算法,并在多个基准测试中证明了其优越性能。
Dec, 2022
该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法,通过使用低维潜在动作编码和状态条件 VQ-VAE 模型,以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹,并在高维持续行为空间中超越了现有的模型和策略的基线结果。
Aug, 2022
该研究论文介绍了一种统一的框架,利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划,通过考虑预训练的扩散模型进行能量引导抽样,通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能,并在高维任务中超过了现有的方法。
Sep, 2023