R2 指标与深度强化学习增强的自适应多目标进化算法

Apr, 2024

R2 指标与深度强化学习增强的自适应多目标进化算法

R2 Indicator and Deep Reinforcement Learning Enhanced Adaptive Multi-Objective Evolutionary Algorithm

Farajollah Tahernezhad-Javazm, Farajollah Tahernezhad-Javazm, Naomi Du Bois, Alice E. Smith, Damien Coyle

TL;DR提出了一种基于强化学习的双深度 Q 网络优化算法结构，通过使用 R2 指标将单目标结构转化为多目标结构，以及通过评估每代算法的性能构建强化学习奖励函数，该算法在与其他基于 R2 指标的六种算法进行比较时表现出优秀的性能。

Abstract

Choosing an appropriate optimization algorithm is essential to achieving success in optimization challenges. Here we present a new evolutionary algorithm structure that utilizes a reinforcement learning-based age

optimization algorithm evolutionary algorithm reinforcement learning multi-objective performance

发现论文，激发创造

深度强化学习辅助运算符选择的约束多目标优化

本文提出了一个使用深度强化学习辅助的在线运算符选择框架，该框架能够提高约束多目标优化演化算法的性能。通过根据当前状态自适应选择最大化总体改善的运算符，改进了算法性能，并在 42 个基准问题上对四种常用的约束多目标优化演化算法进行了评估，实验结果显示这种方法显著提高了 CMOEA 的性能。

Jan, 2024

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023

移动神经架构搜索中的多目标强化进化

本文提出了一种新的多目标导向算法 MoreMNAS（Multi-Objective Reinforced Evolution in Mobile Neural Architecture Search），通过结合 EA 和 RL 的优点，将 NSGA-II 遗传算法与自然突变过程相混合，使得神经模型搜索过程中不仅能够避免模型退化，还能更好地利用已学习的知识，并在超分辨领域 SR 中进行实验，获得比某些现有技术更少的 FLOPS 令人瞩目的模型。

Jan, 2019

多目标优化的深度强化学习

本文提出了一种通过深度强化学习和神经网络实现的多目标优化问题解决方案，其中采用分解思想将问题分解为一组标量优化子问题并针对每个子问题建立神经网络模型。通过邻域参数传递策略和 DRL 训练算法共同优化所有子问题的模型参数，并利用训练好的神经网络模型直接得到帕累托最优解。其中将多目标旅行商问题作为研究对象，使用 DRL-MOA 方法建模子问题为指针网络并与其他基准方法进行对比，在实验中表现出了较强的泛化能力和快速解决速度。

Jun, 2019

排序奖励：为组合优化实现自我对弈强化学习

本文介绍了一个名为 Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为 2 和 3 的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Jul, 2018

RLEMMO：深度强化学习辅助的进化多模态优化

提出了 RLEMMO，一种元黑盒优化框架，通过维护解的群体并整合强化学习代理来灵活调整个体级搜索策略以匹配最新的优化状态，从而提高多模态优化问题的搜索性能。在 CEC2013 多模态优化问题基准测试上，RLEMMO 取得了与强基准模型相竞争的优化性能。

Apr, 2024

强化学习辅助的进化算法：调查与研究机会

综述了将强化学习应用于进化算法的研究，讨论了集成方法、应用领域以及未来研究方向。

Aug, 2023

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

多缓冲区通信引导的演化策略强化学习

本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning)，它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来，利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现，甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。

Jun, 2023

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024