层次化品质多样性用于在线损伤恢复

Apr, 2022

层次化品质多样性用于在线损伤恢复

Hierarchical Quality-Diversity for Online Damage Recovery

Maxime Allard, Simón C. Smith, Konstantinos Chatzilygeroudis, Antoine Cully

TL;DR介绍了分层试错算法，使用分层行为复述学习各种技能并利用这些技能使机器人更适应不同情况。实验表明，与最佳基线相比，我们的方法在迷宫导航任务中需要的行动次数少 20％，而完全失败的通常情况下减少 57％。

Abstract

Adaptation capabilities, like damage recovery, are crucial for the deployment of robots in complex environments. Several works have demonstrated that using repertoires of pre-trained skills can enable robots to adapt to unforeseen mechanical damages in a few minutes. These adaptation capabilities are directly linked to the →

robot adaptation skill repertoires hierarchical algorithm maze navigation behavioural diversity

发现论文，激发创造

具有分层品质多样性的物理机器人在线损伤恢复

使用 Hierarchical Trial and Error 算法，将 QD 算法分层结构化以增加机器人学习技能的多样性，并使机器人能够更快地适应物理世界，实验表明，该方法优于现有基准算法，可提高机器人迎接新挑战的能力。

Oct, 2022

从完整状态轨迹中发现无监督行为

本文介绍了一种利用自主生成的行为特征描述模拟机器人环境中任务的质量 - 多样性（Quality-Diversity）算法，可以自主发现各种解决方案来处理导航、高速前进和半滚动任务。

Nov, 2022

通过无重置多样性优化实现自主步行学习

本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习，我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略，并演示了通过训练自我重置的步态行走任务，可以高效学习到具有多样性和一定安全性的行走技能。

Apr, 2022

动态感知的多样性优化：高效学习技能库

通过使用动态模型来提高质量 - 多样性算法的样本效率，我们提出了动态感知质量 - 多样性 (DA-QD) 框架；我们从中获得的经验进行增量训练，可以在想象力中使用想象技能库进行质量 - 多样性探索。该方法能够在三个机器人实验中取得成功的应用，包括比现有 QD 方法更高效的技能发现、零 - shot 学习中的新技能库以及长期导航任务中的损伤适应。

Sep, 2021

基于相关性引导的无监督质量多样性算法能力发现

提出了一种基于 Relevance-guided Unsupervised Discovery of Abilities 的 Quality-Diversity 算法，可以自动发现适用于任务的行为描述符，并在模拟机器人环境中验证了算法的有效性。

Apr, 2022

通过动态感知和无重置学习在物理机器人上实现质量多样性优化

通过 Reset-Free QD 算法和动力学模型，在物理机器人上直接学习控制器，以提高样本效率和生成最佳存档，从而使物理四足机器人在两小时内学习到行为技能库。

Apr, 2023

高效探索的层次化技能

本文介绍了一种新的分层技能学习框架，利用无监督学习获得不同复杂度的技能，并自动权衡技能的通用性和特定性，用于动态任务，并表明这种方法产生比现有方法更好的结果。

Oct, 2021

基于质量多样性优化的无监督行为发现

该论文介绍了一种使用减少维度技术自动学习行为描述符的算法，可用于生成覆盖机器人大多数可能行为的控制器集合，其表现类似于传统的手动编码方法，但不需要提供任何手动编码的行为描述符。

Jun, 2021

机器人中基于曲库的在线自适应的自适应优先级选择

本文提出了基于曲库的在线学习方法，通过与不同情境下的行为库匹配确定最优策略，取得了比 Reset-free Trial and Error 及其他传统的单曲库方法更快更高效的学习效果，并在机器人的编程中得到了实际应用。

Jul, 2019

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022