基于模型的强化学习通过潜空间配置

ICMLJun, 2021

基于模型的强化学习通过潜空间配置

Model-Based Reinforcement Learning via Latent-Space Collocation

Oleh Rybkin, Chuning Zhu, Anusha Nagabandi, Kostas Daniilidis, Igor Mordatch...

TL;DR该研究使用学习的潜在状态空间模型，结合目测模型强化学习方法，提出了一种优化潜在状态轨迹的 LatCo 方法，来解决长时程、奖励稀疏的任务。通过序列规划，相比于之前使用的射击方法，该方法在历经时间过程中的效果更好。

Abstract

The ability to plan into the future while utilizing only raw high-dimensional observations, such as images, can provide autonomous agents with broad capabilities. visual model-based reinforcement learning (RL) me

visual model-based reinforcement learning latent collocation method sequence planning long-horizon tasks autonomous agents

发现论文，激发创造

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线 RL 算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020

隐空间中的基于模型的规划的时间预测编码

本文使用时间预测编码等方法，构建了一种信息论方法的强化学习模型，可帮助解决高维度观测值与复杂背景的问题。

Jun, 2021

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

结合长期未来的强化学习动力学模型学习

本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Mar, 2019

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

MELD: 通过潜在状态模型从图像中进行元强化学习

本文介绍了一种基于元学习的，使用潜在状态模型从图像中加速学习的方法，该方法被用于实现机器人在执行任务时快速获得新技能，该算法优于以前的元再强化学习方法，并且已经在真实世界的机器人控制设置中进行了训练。

Oct, 2020

Plan-Seq-Learn: 语言模型引导强化学习解决长时程机器人任务

利用大型语言模型（LLMs）和运动规划，提出了一种模块化方法 Plan-Seq-Learn（PSL），将抽象语言和学习到的低级控制相结合，从头开始解决长期目标的机器人任务，并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。

May, 2024