强化学习中什么时候使用参数模型？

Jun, 2019

强化学习中什么时候使用参数模型？

When to use parametric models in reinforcement learning?

Hado van Hasselt, Matteo Hessel, John Aslanides

TL;DR研究了参数模型和经验回放的共性和区别，探讨了何时以及如何在强化学习中使用参数模型，验证了使用经验回放算法生成虚拟转换来提高数据效率的假设，并在 Atari 2600 视频游戏中实现了最新数据效率的提升。

Abstract

We examine the question of when and how parametric models are most useful in reinforcement learning. In particular, we look at commonalities and differences between →

parametric models reinforcement learning experience replay model-based approaches atari 2600 video games

发现论文，激发创造

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

将参数化和非参数化模型相结合的离线策略估计

通过结合参数化模型和非参数化模型的混合专家方法来评估强化学习中的批次离线策略，通过选择每个时间步中的模型来最小化回报误差估计，我们的方法在多个领域中优于单个模型和基于重要性采样的状态艺术评估。

May, 2019

继续做有效的事情：行为建模先验用于离线强化学习

本文提出了一种能够适用于机器人控制等实际问题，同时在批处理状态下能够有效学习的算法，该算法采用了优势加权行为模型 (ABM) 来对先前执行过的成功动作进行刻画，并对新的任务中可能成功的动作进行策略偏置，实验表明我们的算法在标准连续控制基准测试和多任务学习中都有着较好的效果。

Feb, 2020

回放：必须不停地倒转

提高样本效率是模型自由强化学习中的一个挑战，本文提出了一种名为 Backplay 的方法，利用单个演示构建任务的课程并以该演示的末端为起点进行训练，最终在可竞争方法中优化训练速度。

Jul, 2018

强化学习中的经验设计

本文旨在提出在强化学习中进行良好实验的方法，并强调常见错误和潜在统计结果，覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等，旨在通过充分利用计算资源来进行良好的实证研究。

Apr, 2023

生命周期强化学习中的可扩展和鲁棒计划的最小价值等价部分模型

本文提出了新的模型，称为 “最小价值等效部分模型”，它只对环境的相关方面进行建模。通过实验证明，基于此类模型的规划方法具有可伸缩性和鲁棒性。

Jan, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

强化学习中多样化回放的泛化作用

本研究通过理论和实证方法，探讨从不同角度对多任务强化学习的泛化性能进行提升，发现增加回放缓冲区中的转换的多样性有助于提高对训练期间 “可达” 和 “不可达” 状态的泛化能力和潜在表示的泛化能力。

Jun, 2023

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020