进化算法中新颖性的出现

Jun, 2022

Emergence of Novelty in Evolutionary Algorithms

David Herel, Dominika Zogatova, Matej Kripner, Tomas Mikolov

TL;DR采用共享奖励系统鼓励多样性行为是避免进化算法陷入局部极小值的有效方法，用于解决迷宫问题和 Atari 游戏，相比 Novelty Search 方法，本文方法实现更简单且性能更好。

Abstract

One of the main problems of evolutionary algorithms is the convergence of the population to local minima. In this paper, we explore techniques that can avoid this problem by encouraging a diverse behavior of the agents through a shared reward system. The rewards are randomly distribute

evolutionary algorithms diversity shared reward system maze problem atari games

发现论文，激发创造

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

学习新任务的策略

本文提出一种强化学习算法，通过自编码器将已发现策略的状态序列进行度量，以此产生新的策略，同时利用两个目标的策略梯度算法在策略更新中权衡任务奖励和新颖度奖励，最终得到一些解决特定任务和具有差异化行动序列的策略，并展示该方法在迷宫导航，机械臂和蹦跳机器人的运动任务以及对抗性任务中的有效性。

May, 2019

演化博弈理论在多智能体路径规划中的应用

本文探讨了一种基于进化博弈论思想的解决方法来解决一组同质且自主代理在未知且随机环境中的路径规划问题，研究了多智能体规划方法，并展示了我们的技术在大空间中最小化路径长度方面击败了现有的状态良好的强化学习算法近 30%，并且比深度强化学习方法快至少一个数量级，并且与其他方法相比，扩展性更好，最后，我们证明了我们学到的政策在演化上是稳定的。

Dec, 2022

元学习好奇算法

本文认为好奇心是一种进化机制，能够在智能体的一生中鼓励有意义的探索，以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题，并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性，并将其他构建块（例如缓冲器、最近邻模块和定制丢失函数）与神经网络结合使用。最终，本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。

Mar, 2020

使用 NEAT 算法学习机器人群体的新兴行为

通过进化算法训练分布式机器人群体算法以产生新兴行为，并在不同模式的操纵下进行了模拟实验和评估。

Sep, 2023

基于新颖性搜索的粒子群优化

本文提出了一种将粒子群优化算法与新颖性搜索相结合的方法，该方法通过新颖性搜索寻找搜索域中的新颖点，然后使用粒子群优化算法在该区域内搜索全局最优解，该方法在处理存在大量局部最优解和次全局最优解远离真正最优解的函数时表现良好。

Feb, 2022

对抗环境中交互创新处理的方法和机制

本文介绍了一种应对开放性场景中新颖性挑战的方法，该方法结合了逻辑表示和推理方法，利用通用方法和架构机制检测、表征新颖性，并构建相应的适应性模型进行应对。通过在多智能体博弈中的评估，结果表明所提出的方法在各种新颖性挑战下均表现出高准确率。

Feb, 2023

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018

竞争性多智能体搜索的进化策略

本文以智能搜索技术在人机系统中的应用为出发点，提出了一种新的多智能体协作搜索方法，并通过实验结果表明，该方法优于传统的手动设计策略和传统树状搜索方法，并能够用于研究不同的人类创造性活动。

Jun, 2023

有限能力机器人异构群体的行为探索方法研究

通过大量的实验和消融分析，我们分析了不同表征、进化搜索和各种聚类方法在异构群体中寻找新行为的影响。我们的研究结果表明，先前的方法未能发现许多有趣的行为，而迭代人在环节的发现过程比随机搜索、群体化学和自动化行为发现方法发现了更多的行为。我们的实验中发现了 23 个新的紧急行为，其中 18 个是新发现。据我们所知，这些是首个已知的计算无关代理异构群体的紧急行为。

Oct, 2023