迈向多形态具有差异性和知识蒸馏的控制器

Apr, 2024

迈向多形态具有差异性和知识蒸馏的控制器

Towards Multi-Morphology Controllers with Diversity and Knowledge Distillation

Alican Mertan, Nick Cheney

TL;DR通过使用 Quality Diversity 算法构建多个单任务 / 单形态的教师控制器的数据集，然后通过监督学习将这些多样化控制器提炼成一个能够在多种不同机体中表现良好的单一多形态控制器，本文提出了一种解决学习单一控制器控制多种形态的挑战的流程。这种提炼控制器的方法在教师控制器的知识展现方面是独立的，使得我们能够将教师的知识提炼到任何控制模型中，使我们的方法与架构改进和现有的教师控制器训练算法具有协同效应。

Abstract

Finding controllers that perform well across multiple morphologies is an important milestone for large-scale robotics, in line with recent advances via foundation models in other areas of machine learning. Howeve

controllers morphologies pipeline distilled controller teacher controllers

发现论文，激发创造

MetaMorph: 用 Transformers 学习通用控制器

本文提出了一种名为 MetaMorph 的 Transformer 方法，用于学习模块化机器人设计空间中的通用控制器，通过大规模预训练在各种机器人形态上实现组合泛化能力，并证明了可以将预训练策略用于高效的样本转移。

Mar, 2022

通过统一表示和行为蒸馏实现形态任务泛化的系统

通过建立形态 - 任务图，基于 Transformer 架构，以及用大规模行为数据来训练策略，本文研究了探索一种学习单个策略来解决不同任务和代理人形态的方法，以期实现在连续控制领域的广泛泛化。

Nov, 2022

用于高效普适形态控制的形态条件化超网络蒸馏

通过 HyperDistill 方法，我们能够在不同机器人形态之间学习一种通用策略，从而显著提高学习效率，并且实现对未见过形态的机器人的零 - shot 泛化，同时保持了与 transformers 相似的性能和与 multi-layer perceptrons 相似的高效性。

Feb, 2024

通过上下文调节实现通用形态控制

该论文提出了一种分层架构，通过上下文调节来更好地模拟机器人控制策略对其形态上下文的依赖关系，其中包括两个关键子模块：（1）使用超网络生成依赖形态的控制参数；（2）提出了一种形态依赖性的注意机制来调节机器人不同肢体之间的交互。实验结果表明，该方法不仅改善了各种训练机器人的学习性能，还以零样本方式更好地推广到未见过的形态。

Feb, 2023

Task2Morph: 基于差异化的任务引发框架的接触感知机器人设计

该论文提出了一种新颖且通用的可微分任务驱动的机器人设计框架 Task2Morph，将任务特性与形态映射相结合，并将其嵌入到可微分的机器人设计过程中，通过使用梯度信息进行映射学习和整体优化，实验证明 Task2Morph 在效率和效果上优于缺乏任务驱动形态模块的 DiffHand。

Mar, 2024

机体机器形态与控制可扩展共同优化

该研究探讨并展现了一种新的技术 ——“形态创新保护”，可协同优化机器人的结构和控制策略并避免局部最优解来提高机器人的行为性能，促进了自动化机器人设计和行为训练，同时为研究实体认知理论提供了实验检验的平台。

Jun, 2017

学习控制自组装形态：模块化通用性研究

本文探讨了一种模块化协同进化策略，通过多个原始代理的动态自组装进而形成复合体来控制机动物体，与传统复杂代理的学习方法不同。作者通过在模拟环境中进行实验，展示了这一方法比静态和单片基线更好地适应环境变化和测试时间变化的性能。

Feb, 2019

基于深度强化学习的形态和行为数据高效协同适应

本文提出了一种基于深度强化学习和软演员 - 评论家算法的全新方法：将机器人形态与其控制器自动高效地协同适应，以降低试验形态与行为的数量，并使用先前测试过的形态和行为来估计新候选形态的性能，该方法在真实世界中实现机器人设计的协同适应尤为适用。

Nov, 2019

任意机器人形态的控制器架构和学习机制比较

通过实验证明，网络控制器与进化算法、强化学习等学习方法的组合对于形态演化机器人的性能、效率和稳定性有重要影响。

Sep, 2023

多约束最优下的本地导航多技能学习

通过约束优化观点，本文在多样性和质量之间的权衡中获得不同的策略，以及通过吸引 - 排斥奖励项来控制多样性水平，在本文中展示了这种方法的有效性，并成功地在一个本地导航任务中训练出的策略转移到了实际的四足机器人 Solo12 上，并展示了多样的机敏行为和成功的障碍物穿越。

Oct, 2023