使用离线排序提高进化强化学习的样本效率
使用黑盒优化算法 —— 进化策略,替代流行的基于 MDP 的 RL 技术,通过 MuJoCo 和 Atari 上的实验表明,ES 是一种可行的解决策略,随着可用 CPU 数量的增加而呈线性规模,同时 ES 具有不变性、容差性以及无需强化学习概念的优越性。
Mar, 2017
本研究提出改进新型的进化策略算法 - 重要性加权进化策略(IW-ES),通过重要性采样技术来解决现有进化策略算法数据效率较低的问题,在保持原始方法的可扩展性的同时,可以在每个经验批次上执行多个更新,为高效生成强化学习策略算法提供了新思路。
Nov, 2018
本文结合高效的进化策略算法(ES)、直接探索策略和进化智能技术,提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法,通过在 Atari 游戏和机器人学习领域的实验验证,提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。
Dec, 2017
该研究发现,进化策略(ES)算法可以作为一种可替代强化学习(RL)的算法,对于诸如 Atari 游戏和 MuJoCo 人型运动的深度 RL 问题可以实现相同或更好的性能,并且即使是基本的 ES 算法也可以实现成功。研究还表明,ES 算法与传统 RL 算法有着非常不同的性能特征,将它们的优势与传统 RL 算法的优势相结合可能会推动先进技术的发展。
Feb, 2018
该研究通过神经进化的方式使用演化策略(ES),优化神经网络的权重来进行直接策略搜索,结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略,相比深度强化学习方法,ES 实现效果与梯度下降算法相当,并且通过直接访问游戏的内存状态,在 Atari 游戏中胜过了 DQN。
Feb, 2024
本研究说明了一种基于进化策略的深度强化学习方法可以通过优化全部群体的平均奖励来寻找具有鲁棒性的神经网络参数,这种鲁棒性在不同领域的应用中得到了证实。与传统的有限差分法相比,这种方法不仅可以使搜索空间不同,也可以寻找不同属性的网络。
Dec, 2017
我们提出了一种简单而有效的强化学习算法,通过使用进化算子在强化学习中引入大的有向学习步骤,并使用具有共同经验缓冲区的强化学习代理人种群进行训练,从而有效地搜索策略空间。
May, 2023
本研究提出了一种异步进化策略强化学习 (AES-RL) 算法,将进化策略和策略梯度结合,并引入异步更新的方法,能够在连续控制基准测试中表现出优异的性能和时间效率。
Dec, 2020
本文提出了一种新的方法来预测在给定历史数据的情况下,加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合,提出一个基于双重稳健估计器扩展的新估计器,使得估计结果的均方误差通常比现有方法低几个数量级。
Apr, 2016
本文提出了一种新的离线值排名 (VR) 算法,可以在统一的期望最大化 (EM) 框架中同时最大化用户的长期回报和优化排名度量,以提高样本效率。理论和实证研究表明,EM 过程指导了学习策略,从而在没有任何在线交互的情况下享受未来回报和排名度量的优势。广泛的离线和在线实验证明了我们方法的有效性。
Jan, 2024