PcLast: 发现可规划的连续潜在状态

Nov, 2023

PcLast: 发现可规划的连续潜在状态

PcLast: Discovering Plannable Continuous Latent States

Anurag Koul, Shivakanth Sujit, Shaoru Chen, Ben Evans, Lili Wu...

TL;DR我们学习到一种能够关联可达状态的表示方法，通过学习多步逆动力学获得一个潜在表示，并将其转换为在 l2 空间中关联可达状态，这种方法可以显著提高采样效率，并实现层次化规划。

Abstract

goal-conditioned planning benefits from learned low-dimensional representations of rich, high-dimensional observations. While compact latent representations, typically learned from variational autoencoders or inverse dynamics, enable →

goal-conditioned planning latent representations state affordances sample-efficient planning hierarchical planning

发现论文，激发创造

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

深度潜空间中的古典规划：跨越子符号和符号边界

本文介绍了一种使用深度学习与经典规划相结合的无监督架构 LatPlan，通过提供一组图像对作为训练输入和一对初始和目标状态图像作为规划输入，可以使规划过程在符号潜在空间中找到计划并返回可视化的计划执行。

Apr, 2017

非线性动力系统中的潜在状态转变识别

本文旨在通过恢复底层的低维潜在状态及其时间演化来改进动力系统的泛化能力和解释能力。我们提出了一种基于变分自编码器的实用算法，并在逼真的合成环境中进行了实证研究，证明我们能够高准确性地恢复潜在状态动力学，相应地实现高未来预测准确性，并且能够快速适应新环境。

Jun, 2024

对有限记忆 POMDP 的表示学习进行多步逆模型的泛化

学习代理中心状态表示的关键挑战在于在强化学习算法扩展和高效应用于下游任务时，仅对相关信息进行编码而舍弃无关信息。该研究考虑在更具挑战性的高维非马尔可夫环境中，从过去观察序列中译码状态的发现代理中心状态问题，并通过适应广义逆模型来解决此任务。研究结果包括确定性动力学环境下的渐近理论以及对替代直观算法的反例。我们通过对所提出的不同替代方案的代理中心状态发现能力进行了彻底的实证研究，其中对过去行动的分析尤为引人注目：我们表明，当正确使用时，过去行动可以使算法更加成功，而错误使用时则会导致严重的失败。

Apr, 2024

使用逆动力学模型从像素规划

提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型，该模型适应地关注任务相关的动态学习，并同时充当稀疏奖励下计划的有效启发式方法，通过挑战性的视觉目标完成任务的评估，我们发现该方法较之前的无模型方法在性能上有了显著提高。

Dec, 2020

强化学习的潜在变量表示

本文提出了一种基于深度潜变量模型的策略学习框架，在理论上和实践中检验了潜变量模型在优化强化学习中发挥的作用，同时提出了一种计算高效的规划算法，并在多个基准测试中证明了其优越性能。

Dec, 2022

使用因果关系 InfoGAN 学习可计划表示

该论文探讨了如何利用深度生成模型和计划算法生成高维图像的目标导向视觉规划序列，并以绳索操纵为例进行了演示。

Jul, 2018

紧凑潜在动作空间中的有效规划

该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法，通过使用低维潜在动作编码和状态条件 VQ-VAE 模型，以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹，并在高维持续行为空间中超越了现有的模型和策略的基线结果。

Aug, 2022

潜在扩散下的高效规划

该研究论文介绍了一种统一的框架，利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划，通过考虑预训练的扩散模型进行能量引导抽样，通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能，并在高维任务中超过了现有的方法。

Sep, 2023

隐空间中的基于模型的规划的时间预测编码

本文使用时间预测编码等方法，构建了一种信息论方法的强化学习模型，可帮助解决高维度观测值与复杂背景的问题。

Jun, 2021