本文为了推动模型基强化学习(Model-based Reinforcement Learning, MBRL)的研究,收集了大量 MBRL 算法,并提出了 18 个为 MBRL 特别设计的基准环境来评估这些算法,并探讨了 MBRL 算法之间的主要差异和研究挑战。
Jul, 2019
本文介绍了 Ready Policy One (RP1),将基于模型的强化学习视为一个主动学习问题,利用混合目标函数,在优化期间关键性的适应,以便在学习的不同阶段权衡奖励与探索,同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估,并证明了与现有方法相比的显著增益。
Feb, 2020
本文提出了一种新的框架,将基于模型的强化学习(MBRL)视为博弈,通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计,并设计了两种自然算法家族,旨在促进样本效率。
Apr, 2020
本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果,提出了一种新的误差界,利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。
Dec, 2016
本文提出了基于 PyTorch 的 MBRL-Lib 机器学习库,旨在为研究人员提供一个易于开发、调试和比较新算法的平台,也为非专业用户降低应用最先进算法的门槛。
Apr, 2021
本文提出了一种迭代离线模型学习 (MBRL) 框架,其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限,从而解决了动态模型和策略学习之间的目标不匹配问题,从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。
Oct, 2022
利用模型无关的强化学习方法,通过实时数据进行实验和优化控制,提出了一种新的 MFRL 控制方案,通过贝叶斯推断更新干扰分布,来降低制造过程中的大幅波动,同时在未知的非线性化学机械化学抛光(CMP)过程中表现出良好的性能,并在干扰为加性的情况下保证了理论性质,数值研究也证明了我们方法的有效性和效率。
Sep, 2023
通过引入基于元学习的算法,该文探讨了在复杂或动态环境中,即使存在不完美的模型,不严格追求模型准确度也能提高模型的实用性,并通过实验验证了算法的有效性。
May, 2022
本文提出了一种名为 MAMBA 的新方法,通过利用基于模型的强化学习(MBRL)进一步利用合作环境中的集中式训练,从而使代理之间的通信足以在执行阶段维持每个代理的世界模型,而虚拟推演可用于培训,从而通过减少与环境的互动次数,以与 Model-Free 的现有方法相比,在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。
本文提出了一种新的方法,旨在将模型自由和模型相关两种范式结合起来,通过学习概率动力学模型和利用它作为模型自由优化的先验概率来实现数据有效和成本节约,并证明这种方法优于单纯的模型相关和模型自由方法,以及从模型相关模式切换到模型自由模式的方法。
Sep, 2017