任务不可知的形态进化

ICLRFeb, 2021

Task-Agnostic Morphology Evolution

Donald J. Hejna III, Pieter Abbeel, Lerrel Pinto

TL;DR本文介绍了一种新方法 TAME，可以通过对一些 agent 应用基本的随机动作，无需任务或奖励指定，通过一个信息理论追踪代理人的能力，解决目前协调形态和行为的策略优化方法需要昂贵的劳动力以及经常生成无法推广的特定任务的形态的问题，并通过实验证明 TAME 可以在 2D、3D 和操作环境中进化与任务监督算法学习的形态相匹配的形态。

Abstract

deep reinforcement learning primarily focuses on learning behavior, usually overlooking the fact that an agent's function is largely determined by form. So, how should one go about finding a morphology fit for solving tasks in a given environment? Current approaches that co-adapt morph

deep reinforcement learning morphology optimization task-agnostic morphology evolution agent behavior task-independent

发现论文，激发创造

AnyMorph: 通过推断智能体形态学学习可迁移策略

提出了一种基于数据驱动的方法，学习了一种直接表示动物形态的表示法，即使没有先前动物形态的描述信息，也可以训练出泛化到新动物形态的策略，实现了对新动物形态的零样本学习。

Jun, 2022

基于形态环境共进化的课程强化学习

通过 “形态环境共同进化（MECE）” 优化强化学习代理和形态，使其能够自动适应不断变化的环境，从而在不同环境中实现更好的泛化性能。

Sep, 2023

基于深度强化学习的形态和行为数据高效协同适应

本文提出了一种基于深度强化学习和软演员 - 评论家算法的全新方法：将机器人形态与其控制器自动高效地协同适应，以降低试验形态与行为的数量，并使用先前测试过的形态和行为来估计新候选形态的性能，该方法在真实世界中实现机器人设计的协同适应尤为适用。

Nov, 2019

通过统一表示和行为蒸馏实现形态任务泛化的系统

通过建立形态 - 任务图，基于 Transformer 架构，以及用大规模行为数据来训练策略，本文研究了探索一种学习单个策略来解决不同任务和代理人形态的方法，以期实现在连续控制领域的广泛泛化。

Nov, 2022

Task2Morph: 基于差异化的任务引发框架的接触感知机器人设计

该论文提出了一种新颖且通用的可微分任务驱动的机器人设计框架 Task2Morph，将任务特性与形态映射相结合，并将其嵌入到可微分的机器人设计过程中，通过使用梯度信息进行映射学习和整体优化，实验证明 Task2Morph 在效率和效果上优于缺乏任务驱动形态模块的 DiffHand。

Mar, 2024

CompetEvo: 走向基于竞争的形态进化

通过竞争进化 (CompetEvo)，能够使代理体在多智能体竞争场景中进化出满足战斗需求的适宜设计和策略，相较于固定形态的代理体，在战斗场景中获得优势，并展现出异形对峙时产生的惊人和印象深刻行为。

May, 2024

无任务先验学习实现新任务

本文提出了一种名为任务不可知学习方法（TAL）的学习方法，该方法可从任务不可知数据中学习碎片化知识以完成新任务，TAL 由四个阶段组成：任务不可知探索，知识图表组织，动作特征提取，候选动作生成和动作建议。该方法在虚拟室内场景上的实验表明，它的性能优于当前的强化学习和模仿学习算法。

Sep, 2022

有趣的对象，好奇的智能体：学习与任务无关的探索

本研究提出了一种新的任务无关探索方法，将学习到的策略转移到不同的环境下，通过评估基线策略和探索组件，提高在多个测试环境下的一致性探索。

Nov, 2021

我的身体是一个牢笼：形态在基于图的不兼容控制中的作用

本研究比较了使用图神经网络和 transformer 的多任务强化学习方法之间的差异，提出了 Amorpheus 算法，该算法忽略了 GNN 中的形态学信息，并取得了更好的性能。

Oct, 2020

控制任务中的循环架构的神经进化

该研究提出了一种新方法，即利用少量的突变规则来动态演化循环神经网络的结构，其结果表明，这种方法可以在大多数情况下匹配或超过梯度下降方法的性能，同时使用数量级更少的参数，该方法有望在对网络紧凑性和自主设计至关重要的实际应用方面开辟新的途径。

Apr, 2023