超网络下的连续模型强化学习

Sep, 2020

Continual Model-Based Reinforcement Learning with Hypernetworks

Yizhou Huang, Kevin Xie, Homanga Bharadhwaj, Florian Shkurti

TL;DR通过使用任务条件超网络连续学习遇到的动态模型，HyperCRL 方法在机器人运动和操作任务中实现了连续模型基于强化学习，而不需要重新训练之前的任务，同时超越了现有的连续学习替代方法

Abstract

Effective planning in model-based reinforcement learning (MBRL) and model-predictive control (MPC) relies on the accuracy of the learned dynamics model. In many instances of MBRL and MPC, this model is assumed to

model-based reinforcement learning model-predictive control dynamics model hypercrl continual learning

发现论文，激发创造

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

3D 非静态环境下的持续强化学习

本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略，可以在非稳态的环境下进行端到端无模型学习，并与其他基线方法相比表现出竞争力。

May, 2019

渐进上下文动态自适应连续强化学习

本文提出一种基于动态自适应的连续强化学习框架 DaCoRL，采用渐进式上下文建模来对动态环境中的任务进行聚类，利用可扩展多头神经网络来逼近策略，同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 MuJoCo 运动任务上进行的实验证明该框架具有更高的稳定性、总体性能和泛化能力。

Sep, 2022

Hi-Core：层次化知识迁移用于连续性强化学习

Hi-Core 是一个新颖框架，用于在连续强化学习中增强高层次的知识传递，并通过大型语言模型（LLM）进行目标设置和低层次策略学习，并通过知识库存储策略实现层次化知识传递，实验证明其在处理多样化 CRL 任务上的有效性优于常见的基线模型。

Jan, 2024

基于模型的深度强化学习的神经网络动态和无模型微调

该研究论文表明，中等大小的神经网络模型实际上可以与模型预测控制（MPC）相结合，以实现在模型为基础的强化学习算法中的良好样本复杂度，并以提高深度神经网络动力学模型的样本效率为目的初始化模型自由学习。

Aug, 2017

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

交替离线模型训练和策略学习的统一框架

本文提出了一种迭代离线模型学习 (MBRL) 框架，其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限，从而解决了动态模型和策略学习之间的目标不匹配问题，从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。

Oct, 2022

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016