紧凑潜在动作空间中的有效规划

ICLRAug, 2022

Efficient Planning in a Compact Latent Action Space

Zhengyao Jiang, Tianjun Zhang, Michael Janner, Yueying Li, Tim Rocktäschel...

TL;DR该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法，通过使用低维潜在动作编码和状态条件 VQ-VAE 模型，以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹，并在高维持续行为空间中超越了现有的模型和策略的基线结果。

Abstract

planning-based reinforcement learning has shown strong performance in tasks in discrete and low-dimensional continuous action spaces. However, planning usually brings significant computational overhead for decision-making, and scaling such methods to high-dimensional action spaces rema

planning-based reinforcement learning high-dimensional continuous control latent action codes vq-vae robotic hand manipulation tasks

发现论文，激发创造

潜在扩散下的高效规划

该研究论文介绍了一种统一的框架，利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划，通过考虑预训练的扩散模型进行能量引导抽样，通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能，并在高维任务中超过了现有的方法。

Sep, 2023

PcLast: 发现可规划的连续潜在状态

我们学习到一种能够关联可达状态的表示方法，通过学习多步逆动力学获得一个潜在表示，并将其转换为在 l2 空间中关联可达状态，这种方法可以显著提高采样效率，并实现层次化规划。

Nov, 2023

通过变分自编码器实现潜在动作空间，用于对话策略优化的 LAVA

本文探索使用辅助任务来塑造潜变量分布的三种方式，并选择响应自编码为辅助任务，以获得更具行动性质的潜变量表示，从而支持端到端对话策略优化，并实现最先进的成功率。

Nov, 2020

隐空间中的基于模型的规划的时间预测编码

本文使用时间预测编码等方法，构建了一种信息论方法的强化学习模型，可帮助解决高维度观测值与复杂背景的问题。

Jun, 2021

基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

该研究提出了一种新颖的潜在动作框架，将端到端会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。

Feb, 2019

神经打包：从视觉感知到强化学习

我们提出了一个新的学习框架来解决 3D 中的运输和装箱问题，其中的技术核心是使用强化学习训练的神经网络，通过 RGBD 感知和识别，机器人运动规划，来实现在目标容器中进行紧密的装箱。

Oct, 2023

LaPlaSS: 随机系统的潜空间规划

我们提出了一种 “生成 - 测试” 方法，用于在无已知动力学模型的自主移动代理中以有界风险进行规划，并使用变分自动编码器学习潜在线性动力学模型来生成候选轨迹。

Apr, 2024

深度潜空间中的古典规划：跨越子符号和符号边界

本文介绍了一种使用深度学习与经典规划相结合的无监督架构 LatPlan，通过提供一组图像对作为训练输入和一对初始和目标状态图像作为规划输入，可以使规划过程在符号潜在空间中找到计划并返回可视化的计划执行。

Apr, 2017

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022