基于批次的深度强化学习算法基准测试

Oct, 2019

基于批次的深度强化学习算法基准测试

Benchmarking Batch Deep Reinforcement Learning Algorithms

Scott Fujimoto, Edoardo Conti, Mohammad Ghavamzadeh, Joelle Pineau

TL;DR本研究在 Atari 领域中利用单个部分训练的行为策略生成的数据对最近的离线策略和批量强化学习算法的性能进行了基准测试，并发现在这些条件下，许多算法表现不佳，而 Batch-Constrained Q-learning 算法适应离散动作环境后在这项任务中表现最佳。

Abstract

Widely-used deep reinforcement learning algorithms have been shown to fail in the batch setting--learning from a fixed data set without interaction with the environment. Following this result, there have been sev

deep reinforcement learning batch setting off-policy atari domain batch-constrained q-learning

发现论文，激发创造

无探索非策略深度强化学习

本文提出了一种新的批量约束强化学习算法，该算法可以从任意固定批量数据中有效学习，为解决强化学习中的一些关键问题提供可能性。

Dec, 2018

连续双重约束批次强化学习

本研究提出基于批次强化学习的算法，仅使用固定的离线数据集而非在线与环境的交互来学习有效策略，并通过策略约束和价值约束对数据集不足的情况进行干扰，实现对候选策略的控制，相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。

Feb, 2021

可证明的好的无须强探索批量强化学习

本文介绍了一种基于 Bellman 备份的批量强化学习算法，它采用一种更加保守的更新策略来提高输出策略的性能保证，并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。

Jul, 2020

对话中隐含人类偏好的大规模脱靶批次深度强化学习

提出了一种新型的基于批处理的深度强化学习算法，可以在没有在线探索的情况下有效地从人类交互数据的固定批量中进行离线学习，并在开放域对话生成等领域取得了显著的改进。

Jun, 2019

批量量子强化学习

该研究论文提出了一种基于量子计算的 VQC 算法结合数据重载方案的批量 RL 算法，并在 OpenAI CartPole 环境下与基于神经网络的离散 BCQ 算法进行了比较，证明了其在效率上的优势。

Apr, 2023

通过批处理学习实现双模态环境中强化学习智能体的稳定训练

本文采用批处理更新的方式提出了一种新颖的学习方法，针对性地解决双峰随机环境下的强化学习问题，该方法对定价问题等现实应用具有显著的实用意义及工业部署潜力。

Jul, 2023

Atari 深度强化学习中数据效率评估需使用适当的基线

该研究论文探讨了如何提高深度增强学习的数据效率，并证明了新提出的技术并没有真正提高数据效率，而是增加了复杂性和计算成本，提出了一种新的改进的 DQN 算法，并建议将其作为未来改进深度强化学习数据效率的基准。

Mar, 2020

D4RL：深度数据驱动强化学习数据集

本研究为解决离线情境下强化学习（RL）的挑战，特意设计离线 RL 的基准测试任务，指导现实世界中数据集集合的设计与收集，并在开源代码上进行了综合评估，以便研究人员能够进一步完善现有算法及在这一新兴领域展开合作与探索。

Apr, 2020

离线强化学习中的泛化缺陷

该研究通过比较在线学习和离线学习等方法的泛化能力，引入离线学习泛化性能评估的新基准，并发现离线学习算法在新环境中的表现不如在线学习算法，而增加数据多样性能够提高离线学习算法在新环境中的性能。

Dec, 2023

RMBench：机器人操作器控制深度强化学习基准测试

本文介绍了 RMBench，这是一个用于机器人操作的基准测试，使用深度学习和强化学习算法，通过使用目标性能指标来比较算法的性能表现，研究发现，软 Actor-Critic 的表现最好，且数据增强技术有助于学习策略。

Oct, 2022