通过上下文调节实现通用形态控制

Feb, 2023

通过上下文调节实现通用形态控制

Universal Morphology Control via Contextual Modulation

Zheng Xiong, Jacob Beck, Shimon Whiteson

TL;DR该论文提出了一种分层架构，通过上下文调节来更好地模拟机器人控制策略对其形态上下文的依赖关系，其中包括两个关键子模块：（1）使用超网络生成依赖形态的控制参数；（2）提出了一种形态依赖性的注意机制来调节机器人不同肢体之间的交互。实验结果表明，该方法不仅改善了各种训练机器人的学习性能，还以零样本方式更好地推广到未见过的形态。

Abstract

Learning a universal policy across different robot morphologies can significantly improve learning efficiency and generalization in continuous control. However, it poses a challenging →

universal policy robot morphologies multi-task reinforcement learning hierarchical architecture contextual modulation

发现论文，激发创造

MetaMorph: 用 Transformers 学习通用控制器

本文提出了一种名为 MetaMorph 的 Transformer 方法，用于学习模块化机器人设计空间中的通用控制器，通过大规模预训练在各种机器人形态上实现组合泛化能力，并证明了可以将预训练策略用于高效的样本转移。

Mar, 2022

用于高效普适形态控制的形态条件化超网络蒸馏

通过 HyperDistill 方法，我们能够在不同机器人形态之间学习一种通用策略，从而显著提高学习效率，并且实现对未见过形态的机器人的零 - shot 泛化，同时保持了与 transformers 相似的性能和与 multi-layer perceptrons 相似的高效性。

Feb, 2024

我的身体是一个牢笼：形态在基于图的不兼容控制中的作用

本研究比较了使用图神经网络和 transformer 的多任务强化学习方法之间的差异，提出了 Amorpheus 算法，该算法忽略了 GNN 中的形态学信息，并取得了更好的性能。

Oct, 2020

任意机器人形态的控制器架构和学习机制比较

通过实验证明，网络控制器与进化算法、强化学习等学习方法的组合对于形态演化机器人的性能、效率和稳定性有重要影响。

Sep, 2023

基于深度强化学习的形态和行为数据高效协同适应

本文提出了一种基于深度强化学习和软演员 - 评论家算法的全新方法：将机器人形态与其控制器自动高效地协同适应，以降低试验形态与行为的数量，并使用先前测试过的形态和行为来估计新候选形态的性能，该方法在真实世界中实现机器人设计的协同适应尤为适用。

Nov, 2019

学习控制自组装形态：模块化通用性研究

本文探讨了一种模块化协同进化策略，通过多个原始代理的动态自组装进而形成复合体来控制机动物体，与传统复杂代理的学习方法不同。作者通过在模拟环境中进行实验，展示了这一方法比静态和单片基线更好地适应环境变化和测试时间变化的性能。

Feb, 2019

通过统一表示和行为蒸馏实现形态任务泛化的系统

通过建立形态 - 任务图，基于 Transformer 架构，以及用大规模行为数据来训练策略，本文研究了探索一种学习单个策略来解决不同任务和代理人形态的方法，以期实现在连续控制领域的广泛泛化。

Nov, 2022

迈向多形态具有差异性和知识蒸馏的控制器

通过使用 Quality Diversity 算法构建多个单任务 / 单形态的教师控制器的数据集，然后通过监督学习将这些多样化控制器提炼成一个能够在多种不同机体中表现良好的单一多形态控制器，本文提出了一种解决学习单一控制器控制多种形态的挑战的流程。这种提炼控制器的方法在教师控制器的知识展现方面是独立的，使得我们能够将教师的知识提炼到任何控制模型中，使我们的方法与架构改进和现有的教师控制器训练算法具有协同效应。

Apr, 2024

AnyMorph: 通过推断智能体形态学学习可迁移策略

提出了一种基于数据驱动的方法，学习了一种直接表示动物形态的表示法，即使没有先前动物形态的描述信息，也可以训练出泛化到新动物形态的策略，实现了对新动物形态的零样本学习。

Jun, 2022

学习设计和使用机器人操纵工具

通过深度学习和强化学习相结合的方法，本文提出了一种学习策略来解决机器人的操纵任务，并展示了比先前方法更高的样本效率、对未见过任务的适应性以及在实际约束条件下复杂性设计和控制策略之间的权衡。

Nov, 2023