具有理论支持的样本重用的广义政策改进算法

Jun, 2022

具有理论支持的样本重用的广义政策改进算法

Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse

James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras

TL;DR该研究提出了一类广义政策提升算法，将在线算法和离线算法相结合，在保证策略改进的同时，实现了高效数据复用，为深度强化学习的实际应用提供了可行性。

Abstract

Real-world sequential decision making requires data-driven algorithms that provide practical guarantees on performance throughout training while also making efficient use of data. Model-free deep reinforcement learning represents a framework for such data-driven decision making, but ex

sequential decision-making deep reinforcement learning generalized policy improvement on-policy algorithms off-policy algorithms

发现论文，激发创造

具有样本重用的广义近端策略优化

研究利用理论达到策略提升保证的同时，结合较高的数据效率进行决策，通过广义的近端优化，基于样本的有效复用，实现了稳定性和样本效率之间的有效平衡，从而在表现上有了提高。

Oct, 2021

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023

用于处理各种机器人手臂任务的离策略深度强化学习算法

本研究使用 DDPG、TD3 和 SAC 三种基于强化学习的算法，在 MuJoCo 仿真环境下对 Fetch 机器人操作器进行四项不同任务的训练，并分析了这三种算法在控制环境中的效率和速度。

Dec, 2022

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

无探索非策略深度强化学习

本文提出了一种新的批量约束强化学习算法，该算法可以从任意固定批量数据中有效学习，为解决强化学习中的一些关键问题提供可能性。

Dec, 2018

强化学习中的在线策略模型误差

本文提出了一种结合模型和真实数据的方法来弥补模型误差和偏差所带来的不足，通过将真实数据作为时间相关的学习模型的修正项以维持数据生成能力并减少预测误差，从而改进了现有的基于模型的方法。在 MuJoCo 和 PyBullet 基准测试上的实验结果表明该方法可以显著提高基于模型的方法的表现。

Oct, 2021

模型基深度强化学习算法框架及其理论保证

本文提出了一种新的算法框架来设计和分析具有理论保证的基于模型的强化学习算法，该框架将不确定性原则扩展到非线性动态模型，其中模型 SLBO 在连续控制基准任务上实现了最先进的性能。

Jul, 2018

插值策略梯度：将在线策略和离线策略梯度估计相结合的深度强化学习方法

本文系统地研究了深度强化学习中混合使用 on-policy 和 off-policy 更新方法，设计了一种基于控制变量方法的算法来有效结合两者，探讨了不同更新方法的优缺点和影响因素，并在多个开源深度控制测试中展示出了本算法的先进性。

Jun, 2017

P3O: 策略开关式策略优化

这篇论文介绍了一种名为 P3O 的简单算法，它交替运用 on-policy 和 off-policy 更新，使用 behavior policy 和 target policy 之间的有效样本量控制它们之间的距离，以降低强化学习算法的采样复杂度。在 Atari-2600 和 MuJoCo 基准套件上的实验表明，这种算法可以有效地降低现有算法的采样复杂度。

May, 2019