多样性策略梯度用于高效样本质量多样化优化
本文介绍了一种基于模型的 Quality-Diversity 算法,该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性,从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。
Nov, 2022
探讨在训练鲁棒性强的机器人智能体中,使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法,并使用四种机器人仿真测试其性能,揭示当前算法在需要近似梯度的领域中的局限性。
Feb, 2022
本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人,PPGA 算法在人形机器人领域实现了 4 倍的改进。
May, 2023
本文提出了一种名为 Diverse Quality Species (DQS) 的新型质量 - 多样性算法,能够在不需要存档或事先定义行为范围的情况下,将解决方案分解为独立进化种类,并利用无监督技能发现来学习多样化而高性能的解决方案,在多个仿真机器人环境中进行评估,结果表明 DQS 比其他 QD 算法更具样本效率和性能。
Apr, 2023
提出了一种简化版的 Quality diversity 问题 - DQD,重点解决 Objective 和 Measure 函数是一阶可微分函数的问题,并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验,表明 MEGA 显著优于现有的 QD 算法,突出了 DQD 在梯度信息可用时高效的优势。
Jun, 2021
Quality-diversity algorithms, with explicit behavior metrics searching for a set of high-quality and diverse solutions, provide new opportunities for AI game-playing and procedural content generation, enabling creative human-AI interactions and adaptivity.
Jul, 2019
本文提出了一种基于多样性导向的动态规划策略优化算法(DGPO),该算法使用多样性对象来指导一个隐式编码策略,从而在单一的训练过程中学习出多组不同的策略,并将受外部激励约束的优化问题作为概率推理任务来解决,并使用策略迭代来最大化所得的下界。实验结果表明,该方法在各种强化学习任务中有效地找到了多样化的策略,并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。
Jul, 2022
本文介绍了一种基于 Kernals 和 $f$-divergence 的 Quality-Diversity 方法,可以用于神经进化和强化学习等领域,在同时获得高任务回报和行为多样性的优化代理的过程中有效地估计各个策略之间的状态分布系数并求解梯度。
Nov, 2020