本论文结合模型推理控制与模型无关的深度强化学习方法,提出一种更加高效的学习框架,并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。
Aug, 2019
通过解决 MPC 控制器在现实场景下系统识别学习失败的问题,将其转化为部分观察马尔科夫决策过程,通过循环强化学习不断地适应动态模型参数,该论文提出了一种自适应控制算法 (MPC-RRL),最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。
Jan, 2023
本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略,可以在非稳态的环境下进行端到端无模型学习,并与其他基线方法相比表现出竞争力。
May, 2019
本文提出一种基于动态自适应的连续强化学习框架 DaCoRL,采用渐进式上下文建模来对动态环境中的任务进行聚类,利用可扩展多头神经网络来逼近策略,同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 MuJoCo 运动任务上进行的实验证明该框架具有更高的稳定性、总体性能和泛化能力。
Sep, 2022
Hi-Core 是一个新颖框架,用于在连续强化学习中增强高层次的知识传递,并通过大型语言模型(LLM)进行目标设置和低层次策略学习,并通过知识库存储策略实现层次化知识传递,实验证明其在处理多样化 CRL 任务上的有效性优于常见的基线模型。
Jan, 2024
该研究论文表明,中等大小的神经网络模型实际上可以与模型预测控制(MPC)相结合,以实现在模型为基础的强化学习算法中的良好样本复杂度,并以提高深度神经网络动力学模型的样本效率为目的初始化模型自由学习。
Aug, 2017
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。
Jun, 2023
本文提出了一种迭代离线模型学习 (MBRL) 框架,其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限,从而解决了动态模型和策略学习之间的目标不匹配问题,从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。
Oct, 2022
本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果,提出了一种新的误差界,利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。
Dec, 2016