- AlphaZeroES:直接最大化得分胜过规划损失最小化
在单智能体环境中,通过直接最大化回合得分而不是最小化规划损失,可以在不改变蒙特卡洛树搜索算法和神经网络结构的情况下,优于 AlphaZero。
- 解决二次约束混合整数问题中的无界性
对于具有二次约束的无界整数规划问题,该研究通过对 MI 凸二次目标函数的经验评估,比较了 CPXLE 解算器和最先进的 MI 特殊进化策略在处理约束问题上的性能,结果表明黑盒和白盒解算器在满足一定条件下具有竞争力。
- 硬阈值遇上进化策略在强化学习中
本文研究了进化策略在处理现实世界问题中普遍存在的无关特征的限制,并提出了一种集成硬阈值化和自然进化策略的新方法 NESHT,通过严格的分析和实证测试,证明了 NESHT 在嘈杂的 Mujoco 和 Atari 任务等复杂决策问题中的潜力。
- 进化变换器:基于上下文的进化优化
通过元优化的方式,引入一种能够灵活表征一系列进化策略的因果 Transformer 架构 ——Evolution Transformer,用于从数据中直接发现强大的优化原理。通过 Evolution Transformer,结合进化算法蒸馏 - 通过搜索梯度引导的基于草图的程序归纳
使用进化策略通过搜索梯度学习参数化程序,为程序归纳提供了一种解决方案,使其可在各种情境下应用。
- 用线性策略网络解决深度强化学习基准
该研究通过神经进化的方式使用演化策略(ES),优化神经网络的权重来进行直接策略搜索,结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略,相比深度强化学习方法,ES 实现效果与梯度下降算法相当,并且通过直接访问游戏的内存状态,在 - 高维在线优化的不变信息几何方法
在高维任务中,我们介绍了一个完全不变性导向的进化策略算法 InvIGO,并通过在多维高斯函数上的示例验证了它的优势,强调了它在采样效率方面相对于贝叶斯优化和其他进化策略算法的潜力。
- 基于进化策略的高效通信和隐私保护联邦学习
基于进化策略的联邦学习算法(FedES)通过只传输损失值而减少了通信开销,并且保护了数据隐私。实验结果表明 FedES 在保持收敛性能与反向传播方法相同的同时,能够实现上述优势。
- 演进的三维抽象艺术:通过语言匹配概念
通过演化策略与自定义场景参数化,进行半透明三角形的 3D 场景渲染,从而实现根据自由语言描述艺术家规范来查看的电影渲染,为艺术家更轻松地表达抽象 3D 艺术创意提供了新的方式。
- ES-Single 中展开计算图的低方差梯度估计
提出了一种基于进化策略的算法 ES-Single 用于计算未展开的计算图中的梯度,其通过对元损失表面的平滑化克服了递归函数应用中出现的混沌,与最近提出的持久进化策略(PES)类似,ES-Single 是无偏的;相比 PES,ES-Singl - 仅靠运气不行:在不确定领域增强品质多样化解决方案的行为可重复性
本文提出了一种 Archive Reproducibility Improvement Algorithm(ARIA)的方法,基于自然进化策略,用于改善质量 - 多样性(Quality-Diversity)算法在噪声环境下的可重现性,并对其 - 多人合力:使用多个并行进化策略的 MAP-Elites 提升质量和多样性
本文提出了一种基于进化策略的快速并行评估,名为 MAP-Elites-Multi-ES(MEMES)的新型 QD 算法,该算法通过保持多个独立的进化策略线程来扩展现有的 MAP-Elites-ES 算法,并引入了一种新的动态重置过程来自主地 - 通过元黑盒优化发现进化策略
该研究采用元学习来探寻对进化策略更有效的更新规则,并通过自我关注机制加以参数化,其结果显示新进化策略推广到未知的优化问题、种群大小和优化目标上表现出良好的性能。研究结果还表明,所学习的进化策略可以在监督学习和连续控制任务中优于传统的神经进化 - 演化策略:在混合量子 - 经典神经网络中的应用
本 paper 研究了在量子机器学习中一种名为 Evolution Strategies 的黑盒优化算法,其对 QNNs 进行训练是一种可行的替代方法,但同时也存在梯度消失的问题,其表现强烈依赖于超参数的选择。
- 仿生搜索结合仿真的机器学习测试在 ADAS 案例研究中的应用
本文介绍了 Deeper 的扩展版本,它是一种基于搜索的模拟集成测试解决方案,用于为测试基于深度神经网络的车道保持系统生成暴露失败的测试场景。在新提出的版本中,使用了一组新的生物启发式搜索算法,遗传算法、(μ+λ) 和 (μ,λ) 进化策略 - 一种高效的异步方法用于整合进化和基于梯度的策略搜索
本研究提出了一种异步进化策略强化学习 (AES-RL) 算法,将进化策略和策略梯度结合,并引入异步更新的方法,能够在连续控制基准测试中表现出优异的性能和时间效率。
- 一首颂词给一阶常微分方程
提出了一种新的神经 ODE 算法范例,称为 ODEtoODE,其中主要流的时间相关参数随着正交群 O(d)上的矩阵流发展。这种嵌套的两种流系统,其中参数流限制在紧致流形上,提供稳定性和有效性训练,并能解决梯度消失 - 爆炸问题,从而导致更好 - 将 MAP-Elites 扩展到深度神经进化
本论文介绍了一种在高维控制中应用 MAP-Elites 和 Evolution Strategies 算法的新型算法 ME-ES,用于机器人关节损伤后的恢复。该算法在强欺骗奖励的高维控制任务中表现出与现有探索算法相当的高效探索能力。
- ICLRES-MAML: 简化无 Hessian 元学习
提出了 ES-MAML 框架,基于进化策略(ES)解决了模型无关元学习(MAML)问题,避免了使用随机策略进行反向传播估计二阶导数时的问题,并可以处理新类型的非光滑适应算子,并且与现有方法竞争力强,经常在查询较少情况下产生更好的自适应。
- 使用进化策略和混合方法进行不可微监督学习
该研究论文展示了演化策略在学习大型监督模型的非可微参数方面的优越性,尤其是当模型具有百万维参数时,该方法的竞争能力非常出色。这种方法允许瘦模型从第一步开始就可以训练,非常适合于大算力场景。