模型强化学习中价值扩展方法的递减收益

ICLRMar, 2023

模型强化学习中价值扩展方法的递减收益

Diminishing Return of Value Expansion Methods in Model-Based Reinforcement Learning

Daniel Palenicek, Michael Lutter, Joao Carvalho, Jan Peters

TL;DR本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究，并通过实验表明，在提升普通动力学模型的准确性时所增加的样本效率 marginally，远远达不到与无模型方法相当的表现。

Abstract

model-based reinforcement learning is one approach to increase sample efficiency. However, the accuracy of the dynamics model and the resulting compounding error over modelled trajectories are commonly regarded a

model-based reinforcement learning sample efficiency dynamics model value expansion methods horizons

发现论文，激发创造

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

基于模型的强化学习动态视野价值估计

本文提出了一种名为 DMVE 的新方法，通过利用重建模块的世界模型来进行图像特征提取和价值估计，以确定模型知识的有效性，实现了自适应价值扩展的目的，并在基准视觉控制任务中表现出更高效和更准确的价值估计，优于同类方法。

Sep, 2020

具有随机集合值扩展的样本有效强化学习

提出了一种名为 “随机集合价值扩展（STEVE）” 的新型基于模型的技术，通过动态插值来消除模型中的错误，与以往的基于模型的方法不同，该方法在复杂环境下不会降低性能，并在具有挑战性的连续控制基准测试中提高了一个数量级的样本效率。

Jul, 2018

基于模型的随机价值梯度在连续强化学习中的应用

本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法，发现在高维控制任务中，基于模型的策略评估方法比传统方法更有效。

Aug, 2020

模型基强化学习中的复合误差对抗学习

本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用，实验结果表明，该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。

Dec, 2019

MoDem: 利用演示加速视觉基于模型的强化学习

利用演示可以显著提高模型学习效率，在这项工作中，我们确定了利用演示进行模型学习的关键因素，即策略预训练，有针对性的探索和演示数据的过采样，这三个阶段构成了我们的基于模型的 RL 框架。

Dec, 2022

扩展状态奖励空间的情节强化学习

通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架，我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值，从而在具有挑战性的任务中表现出优越性。

Jan, 2024

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

基于模型内在动机的离策略学习与主动在线探索

通过引入预测模型和离线学习元素，结合一个实用性较高的终端价值函数，本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差，我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联，使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明，我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能，尤其是在稀疏奖励的情况下。

Mar, 2024

面向参数变化系统的模型自适应强化学习控制中的样本高效迁移

本文利用模型控制的思想解决了强化学习算法的样本效率问题，并通过四个基准实例验证了其性能。

May, 2023