重要性加权演化策略

NIPSNov, 2018

Importance Weighted Evolution Strategies

Víctor Campos, Xavier Giro-i-Nieto, Jordi Torres

TL;DR本研究提出改进新型的进化策略算法 - 重要性加权进化策略（IW-ES），通过重要性采样技术来解决现有进化策略算法数据效率较低的问题，在保持原始方法的可扩展性的同时，可以在每个经验批次上执行多个更新，为高效生成强化学习策略算法提供了新思路。

Abstract

evolution strategies (ES) emerged as a scalable alternative to popular Reinforcement Learning (RL) techniques, providing an almost perfect speedup when distributed across hundreds of CPU cores thanks to a reduced communication overhead. Despite providing large improvements in wall-cloc

evolution strategies importance sampling data efficiency policy update scalability

发现论文，激发创造

演化策略作为可扩展替代强化学习的方案

使用黑盒优化算法 —— 进化策略，替代流行的基于 MDP 的 RL 技术，通过 MuJoCo 和 Atari 上的实验表明，ES 是一种可行的解决策略，随着可用 CPU 数量的增加而呈线性规模，同时 ES 具有不变性、容差性以及无需强化学习概念的优越性。

Mar, 2017

使用离线排序提高进化强化学习的样本效率

本文提出了一种用于评估候选解的离线排序方法，以提高样本效率，在强化学习中使用增强型随机搜索算法（ARS）时，与原始 ARS 相比，我们的离线策略具有类似的运行时间，但只需要约 70% 的数据，并且胜过最近的 TR-ES。

Aug, 2022

一种高效的异步方法用于整合进化和基于梯度的策略搜索

本研究提出了一种异步进化策略强化学习 (AES-RL) 算法，将进化策略和策略梯度结合，并引入异步更新的方法，能够在连续控制基准测试中表现出优异的性能和时间效率。

Dec, 2020

使用进化策略和混合方法进行不可微监督学习

该研究论文展示了演化策略在学习大型监督模型的非可微参数方面的优越性，尤其是当模型具有百万维参数时，该方法的竞争能力非常出色。这种方法允许瘦模型从第一步开始就可以训练，非常适合于大算力场景。

Jun, 2019

ES 不仅仅是传统有限差分近似器

本研究说明了一种基于进化策略的深度强化学习方法可以通过优化全部群体的平均奖励来寻找具有鲁棒性的神经网络参数，这种鲁棒性在不同领域的应用中得到了证实。与传统的有限差分法相比，这种方法不仅可以使搜索空间不同，也可以寻找不同属性的网络。

Dec, 2017

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

回归基础：用规范进化策略测试在 Atar 游戏中的表现

该研究发现，进化策略（ES）算法可以作为一种可替代强化学习（RL）的算法，对于诸如 Atari 游戏和 MuJoCo 人型运动的深度 RL 问题可以实现相同或更好的性能，并且即使是基本的 ES 算法也可以实现成功。研究还表明，ES 算法与传统 RL 算法有着非常不同的性能特征，将它们的优势与传统 RL 算法的优势相结合可能会推动先进技术的发展。

Feb, 2018

用线性策略网络解决深度强化学习基准

该研究通过神经进化的方式使用演化策略（ES），优化神经网络的权重来进行直接策略搜索，结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略，相比深度强化学习方法，ES 实现效果与梯度下降算法相当，并且通过直接访问游戏的内存状态，在 Atari 游戏中胜过了 DQN。

Feb, 2024

利用重要性权重进行子集选择

该研究提出了一种基于重要性抽样的子集选择算法，能够在批处理环境中提高模型训练的性能，在可用数据批次中选择样本。该算法在七个公共数据集上的性能明显优于其他子集选择算法，并且在标签信息不可用的主动学习环境中具有竞争力。研究还对其重要权重方法进行了初步的理论分析，证明了泛化和采样率的限制。

Jan, 2023

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023