重新思考基于群体协助的离线策略强化学习

May, 2023

重新思考基于群体协助的离线策略强化学习

Rethinking Population-assisted Off-policy Reinforcement Learning

Bowen Zheng, Ran Cheng

TL;DR本文深入研究了结合 off-policy reinforcement learning 和 population-based optimization 两种算法的训练方法，在机器人运动任务中的实验结果表明 population data 的使用会影响训练稳定性并降低性能，作者进一步提出了双重回放缓冲设计来解决此问题。

Abstract

While off-policy reinforcement learning (RL) algorithms are sample efficient due to gradient-based updates and data reuse in the replay buffer, they struggle with convergence to local optima due to limited explor

off-policy reinforcement learning population-based optimization replay buffer error double replay buffer

发现论文，激发创造

基于人群的组合优化强化学习

通过引入基于 Population 的强化学习思想，由于其在最大化性能时尚未预定义特定的多样性，证明了该方法产生一组互补的策略，并在三个著名的 NP-hard 问题上获得最新的强化学习结果：旅行推销员问题 (TSP)，分配式车辆路径规划问题 (CVRP) 和 01 背包问题 (KP)。在特定的 TSP 问题上，其超过先前的最先进技术，将最优性差距分为 5 个，同时缩短了推理时间超过一个数量级。

Oct, 2022

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

单机快速基于种群的强化学习

通过编译和矢量化的技术，我们验证了集群训练可以在单台机器上进行，同时大于单个智能体训练，以及它可以被用于超参数调整。

Jun, 2022

强化学习中的种群指导并行策略搜索

提出了一种新的基于群体引导的并行学习方法，通过在共享经验回放缓冲区中搜索良好的策略，结合最佳策略信息，软融合构建损失函数，以实现稀疏奖励环境下提升最佳期望累计回报的目的，其中 TD3 算法是工作算法之一。

Jan, 2020

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

高效自动化深度强化学习

本文提出了一种基于群体的自动化强化学习（AutoRL）框架，该框架在优化超参数和神经网络结构的同时训练智能体，提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中，我们将元优化所需的环境交互次数减少了一个数量级。

Sep, 2020

无探索非策略深度强化学习

本文提出了一种新的批量约束强化学习算法，该算法可以从任意固定批量数据中有效学习，为解决强化学习中的一些关键问题提供可能性。

Dec, 2018