通过动态感知和无重置学习在物理机器人上实现质量多样性优化

Apr, 2023

通过动态感知和无重置学习在物理机器人上实现质量多样性优化

Quality-Diversity Optimisation on a Physical Robot Through Dynamics-Aware and Reset-Free Learning

Simón C. Smith, Bryan Lim, Hannah Janmohamed, Antoine Cully

TL;DR通过 Reset-Free QD 算法和动力学模型，在物理机器人上直接学习控制器，以提高样本效率和生成最佳存档，从而使物理四足机器人在两小时内学习到行为技能库。

Abstract

Learning algorithms, like quality-diversity (QD), can be used to acquire repertoires of diverse robotics skills. This learning is commonly done via computer simulation due to the large number of evaluations requi

quality-diversity robotics skills reset-free qd physical robot dynamics model

发现论文，激发创造

通过无重置多样性优化实现自主步行学习

本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习，我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略，并演示了通过训练自我重置的步态行走任务，可以高效学习到具有多样性和一定安全性的行走技能。

Apr, 2022

动态感知的多样性优化：高效学习技能库

通过使用动态模型来提高质量 - 多样性算法的样本效率，我们提出了动态感知质量 - 多样性 (DA-QD) 框架；我们从中获得的经验进行增量训练，可以在想象力中使用想象技能库进行质量 - 多样性探索。该方法能够在三个机器人实验中取得成功的应用，包括比现有 QD 方法更高效的技能发现、零 - shot 学习中的新技能库以及长期导航任务中的损伤适应。

Sep, 2021

具有分层品质多样性的物理机器人在线损伤恢复

使用 Hierarchical Trial and Error 算法，将 QD 算法分层结构化以增加机器人学习技能的多样性，并使机器人能够更快地适应物理世界，实验表明，该方法优于现有基准算法，可提高机器人迎接新挑战的能力。

Oct, 2022

稀疏奖励和稀疏互动下的质量多样性：机器人抓取的应用

通过评估框架，该研究工作在 10 个不同抓取领域进行了 15 种方法的实验，结果显示优先选择成功解决方案的 MAP-Elites 变体在所研究的指标上大大优于其他方法，并发现稀疏交互可能导致迷惑性的新颖性，此工作在文献中具有创新性地有效产生了抓取轨迹示例，这方面没有先例。

Aug, 2023

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

动态品质多样性搜索

该论文介绍了一种新颖且通用的动态质量多样性 (Dynamic QD) 方法，旨在在环境发生变化的情况下更新过去解决方案的存档，并将其应用于进化搜索的动态环境。

Apr, 2024

从完整状态轨迹中发现无监督行为

本文介绍了一种利用自主生成的行为特征描述模拟机器人环境中任务的质量 - 多样性（Quality-Diversity）算法，可以自主发现各种解决方案来处理导航、高速前进和半滚动任务。

Nov, 2022

量化先于选择：活跃动态偏好在强化学习中的鲁棒性

通过引入主动动态偏好方法（Active Dynamics Preference），对系统随机参数进行有效选择，并在四个机器人运动任务中进行验证，表明此方法具有超强的适应性和鲁棒性，可有效提高机器人环境下的一致性。

Sep, 2022

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

使用质量多样性加速 6 自由度抓取采样

近期 AI 在机器人学习方面的重要进展，特别是自然语言条件规划和使用生成模型进行控制器高效优化。然而，互动数据仍然是泛化的瓶颈。获取抓取的数据是一个关键挑战，因为这项技能需要完成许多操作任务。质量多样性算法结合先验知识来加速生成多样的模拟抓取姿势，实验结果显示质量多样性算法明显优于常用方法。进一步实验表明，质量多样性优化自动发现了一些通常需要硬编码的高效先验知识。在两种不同类型的机械手上部署生成的抓取结果表明，所产生的多样性场景具有模拟到实际的可迁移性。我们相信这些结果对于生成大规模数据集以实现强健且普适的机器人抓取策略是重要的一步。

Mar, 2024