硬阈值遇上进化策略在强化学习中

May, 2024

硬阈值遇上进化策略在强化学习中

Hard-Thresholding Meets Evolution Strategies in Reinforcement Learning

Chengqian Gao, William de Vazelhes, Hualin Zhang, Bin Gu, Zhiqiang Xu

TL;DR本文研究了进化策略在处理现实世界问题中普遍存在的无关特征的限制，并提出了一种集成硬阈值化和自然进化策略的新方法 NESHT，通过严格的分析和实证测试，证明了 NESHT 在嘈杂的 Mujoco 和 Atari 任务等复杂决策问题中的潜力。

Abstract

evolution strategies (ES) have emerged as a competitive alternative for model-free reinforcement learning, showcasing exemplary performance in tasks like Mujoco and Atari. Notably, they shine in scenarios with im

evolution strategies model-free reinforcement learning imperfect reward functions natural evolution strategies hard-thresholding

发现论文，激发创造

演化策略作为可扩展替代强化学习的方案

使用黑盒优化算法 —— 进化策略，替代流行的基于 MDP 的 RL 技术，通过 MuJoCo 和 Atari 上的实验表明，ES 是一种可行的解决策略，随着可用 CPU 数量的增加而呈线性规模，同时 ES 具有不变性、容差性以及无需强化学习概念的优越性。

Mar, 2017

回归基础：用规范进化策略测试在 Atar 游戏中的表现

该研究发现，进化策略（ES）算法可以作为一种可替代强化学习（RL）的算法，对于诸如 Atari 游戏和 MuJoCo 人型运动的深度 RL 问题可以实现相同或更好的性能，并且即使是基本的 ES 算法也可以实现成功。研究还表明，ES 算法与传统 RL 算法有着非常不同的性能特征，将它们的优势与传统 RL 算法的优势相结合可能会推动先进技术的发展。

Feb, 2018

自然进化策略

本文提出了一种名为自然进化策略（NES）的算法，它是一种比传统进化算法更为规范的黑盒优化方法。NES 在候选解集上维护一个参数化的分布，使用自然梯度来更新分布的参数，以求解更高预期的适应度值。本文介绍了一系列技术，解决了关于收敛、稳健性、样本复杂度、计算复杂度和对超参数的敏感性等问题。对于全局优化和高维空间搜索，从通用的多元正态分布到重尾和可分布的分布，本文探讨了 NES 系列的多种实现。实验结果显示，NES 表现良好，达到了各种标准基准测试的最佳性能。

Jun, 2011

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

ES 不仅仅是传统有限差分近似器

本研究说明了一种基于进化策略的深度强化学习方法可以通过优化全部群体的平均奖励来寻找具有鲁棒性的神经网络参数，这种鲁棒性在不同领域的应用中得到了证实。与传统的有限差分法相比，这种方法不仅可以使搜索空间不同，也可以寻找不同属性的网络。

Dec, 2017

变分量子计算的自然进化策略

本论文探讨了使用 Natural evolutionary strategies 方法优化处理处于梯度消失区域的随机初始化的带参数的量子电路。研究者们使用了 NES 梯度估算器来缓解方差的指数下降。他们在两种不同的问题中使用了两种特定的优化方法，并将其与标准梯度下降进行了比较。在所有这些情况下，他们的实验结果表明，使用 NES 方法可以在较少的电路评估次数下实现与现有优化技术相当的准确性，从而将 NES 方法作为与其他基于梯度的方法协同工作的混合工具来优化零梯度区域中的深度量子电路。

Nov, 2020

重要性加权演化策略

本研究提出改进新型的进化策略算法 - 重要性加权进化策略（IW-ES），通过重要性采样技术来解决现有进化策略算法数据效率较低的问题，在保持原始方法的可扩展性的同时，可以在每个经验批次上执行多个更新，为高效生成强化学习策略算法提供了新思路。

Nov, 2018

使用进化策略和混合方法进行不可微监督学习

该研究论文展示了演化策略在学习大型监督模型的非可微参数方面的优越性，尤其是当模型具有百万维参数时，该方法的竞争能力非常出色。这种方法允许瘦模型从第一步开始就可以训练，非常适合于大算力场景。

Jun, 2019

高效自然进化策略

Efficient Natural Evolution Strategies (eNES) using natural gradient and Fisher information matrix increases evolution gradient estimation robustness and performance for optimal fitness baselines in updating population with competitive results on unimodal and multimodal benchmarks.

Sep, 2012

在线进化策略中的噪声重用

本文提出了一种新的在线进化策略 —— 噪声 - 重复利用进化策略（NRES），并在多种应用中进行了实验。结果表明，相对于现有的自动微分和进化策略方法，NRES 在壁钟速度和总展开步数方面的收敛速度更快。

Apr, 2023