结合长期未来的强化学习动力学模型学习

ICLRMar, 2019

结合长期未来的强化学习动力学模型学习

Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future

Nan Rosemary Ke, Amanpreet Singh, Ahmed Touati, Anirudh Goyal, Yoshua Bengio...

TL;DR本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Abstract

In model-based reinforcement learning, the agent interleaves between model learning and planning. These two components are inextricably intertwined. If the model is not able to provide sensible long-term predicti

model-based reinforcement learning latent-variable autoregressive model planning exploration variational inference

发现论文，激发创造

利用双层可学习大语言模型规划增强长期推荐

利用大型语言模型的规划能力，提出一种可学习的长期推荐规划框架，结合强化学习和层次学习。实验证实该框架在学习长期推荐规划方面具有优势。

Feb, 2024

学习动态模型以用于模型预测代理

通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能，来澄清不同设计选择对学习动力学模型的作用，首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集，然后以监督方式训练前馈动态模型，并在不同的模型设计选择包括合成，随机性，多步培训和时间步选项时评估规划器性能。

Sep, 2021

了解过去预测未来：强化虚拟学习

本篇论文提出了基于预测模型，使用历史数据构建的虚拟空间的强化学习模型，能够平衡长期和短期奖励，并使模型与真实环境交互以实现学习策略的最终收敛。在 Fed-Batch 过程的实验设置下，我们的方法始终优于现有技术水平。

Nov, 2022

基于模型的强化学习通过潜空间配置

该研究使用学习的潜在状态空间模型，结合目测模型强化学习方法，提出了一种优化潜在状态轨迹的 LatCo 方法，来解决长时程、奖励稀疏的任务。通过序列规划，相比于之前使用的射击方法，该方法在历经时间过程中的效果更好。

Jun, 2021

短期预测实现长期规划

通过将规划问题分为两个阶段（预测和建模），使用递归神经网络，利用监督学习技术通过对输入节点进行优化来解决长期规划问题，从而在自动驾驶应用中学习鲁棒政策，并纳入敌对因素以优化环境。

Feb, 2016

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

未来预测能成为部分可观察环境中良好历史表达的有力证据

在部分可观察环境中，学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性，并证明了强化学习的性能与未来观察的预测准确性密切相关。同时，该方法可以阻止高方差嘈杂信号对表征学习的影响，显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。

Feb, 2024

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019