稀疏奖励环境下的品质多样化算法学习

Mar, 2022

稀疏奖励环境下的品质多样化算法学习

Learning in Sparse Rewards settings through Quality-Diversity algorithms

Giuseppe Paolo

TL;DR本文介绍了一种新颖的通过解决奖励稀疏性问题的算法，即 Novelty Search，探讨了如何用 Quality-Diversity Methods 来解决这个问题，尝试提出了一种利用 AutoEncoder 学习低维度搜索空间表示的 TAXONS 算法以及能够高效地聚焦于感兴趣的搜索空间部分的 SERENE 算法。

Abstract

In the reinforcement learning (RL) framework, the learning is guided through a reward signal. This means that in situations of sparse rewards the agent has to focus on exploration, in order to discover which acti

reinforcement learning quality-diversity methods sparse rewards novelty search autoencoder

发现论文，激发创造

可达结果空间的无监督学习和探索

本文介绍了一种新的基于种群分布式搜索的无任务探索算法 TAXONS，可用于直接从高维观测数据中寻找有效策略，结合重构误差在极少先验知识的情况下自适应驱动搜索，能够在稀疏奖励问题中成功探索出多样化的控制器。

Sep, 2019

稀疏奖励和稀疏互动下的质量多样性：机器人抓取的应用

通过评估框架，该研究工作在 10 个不同抓取领域进行了 15 种方法的实验，结果显示优先选择成功解决方案的 MAP-Elites 变体在所研究的指标上大大优于其他方法，并发现稀疏交互可能导致迷惑性的新颖性，此工作在文献中具有创新性地有效产生了抓取轨迹示例，这方面没有先例。

Aug, 2023

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

学习自我模仿多样化策略

本文提出了一种基于自我模仿学习的深度强化学习算法，旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率，并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性，并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。

May, 2018

评估优质多样性神经进化算法在难度较高的探索问题中的表现

本篇研究提出了三个基准测试，旨在通过质量多样性方法的系统性评估来解决控制问题和探索难题。

Nov, 2022

神经进化是技能发现中替代强化学习的竞争性方法

通过在 8 种最先进的方法上进行广泛的实证评估，本文证明了 Quality Diversity (QD) 方法是技能发现的一种有竞争力的替代方案，既可以提供相同甚至更好的性能，而且对超参数更不敏感且可扩展性更高。

Oct, 2022

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018

通过排除实现多样性 (DTE): 基于价值分解的强化学习领域识别

通过引入新的学习规则，提出了一种适用于多个具有不同奖励策略的任务的强化学习算法，其代理体系结构包含多个子策略，可以逃脱陷入局部最优策略的困境，克服了现有算法的局限性。

Feb, 2023