基于形态环境共进化的课程强化学习

Sep, 2023

基于形态环境共进化的课程强化学习

Curriculum Reinforcement Learning via Morphology-Environment Co-Evolution

Shuang Ao, Tianyi Zhou, Guodong Long, Xuan Song, Jing Jiang

TL;DR通过 “形态环境共同进化（MECE）” 优化强化学习代理和形态，使其能够自动适应不断变化的环境，从而在不同环境中实现更好的泛化性能。

Abstract

Throughout long history, natural species have learned to survive by evolving their physical structures adaptive to the environment changes. In contrast, current reinforcement learning (RL) studies mainly focus on

evolution reinforcement learning morphology environment generalization

发现论文，激发创造

通过学习和进化实现具身智能

我们引入 DERL，一种新的计算框架，通过仅利用低级别自我感知信息，可以演化出多样化的智能体形态，用于学习复杂环境下的运动和操作任务，并展示了环境复杂度、形态智能和控制可学性之间的关系。

Feb, 2021

基于深度强化学习的形态和行为数据高效协同适应

本文提出了一种基于深度强化学习和软演员 - 评论家算法的全新方法：将机器人形态与其控制器自动高效地协同适应，以降低试验形态与行为的数量，并使用先前测试过的形态和行为来估计新候选形态的性能，该方法在真实世界中实现机器人设计的协同适应尤为适用。

Nov, 2019

任务不可知的形态进化

本文介绍了一种新方法 TAME，可以通过对一些 agent 应用基本的随机动作，无需任务或奖励指定，通过一个信息理论追踪代理人的能力，解决目前协调形态和行为的策略优化方法需要昂贵的劳动力以及经常生成无法推广的特定任务的形态的问题，并通过实验证明 TAME 可以在 2D、3D 和操作环境中进化与任务监督算法学习的形态相匹配的形态。

Feb, 2021

AnyMorph: 通过推断智能体形态学学习可迁移策略

提出了一种基于数据驱动的方法，学习了一种直接表示动物形态的表示法，即使没有先前动物形态的描述信息，也可以训练出泛化到新动物形态的策略，实现了对新动物形态的零样本学习。

Jun, 2022

任意机器人形态的控制器架构和学习机制比较

通过实验证明，网络控制器与进化算法、强化学习等学习方法的组合对于形态演化机器人的性能、效率和稳定性有重要影响。

Sep, 2023

通过上下文调节实现通用形态控制

该论文提出了一种分层架构，通过上下文调节来更好地模拟机器人控制策略对其形态上下文的依赖关系，其中包括两个关键子模块：（1）使用超网络生成依赖形态的控制参数；（2）提出了一种形态依赖性的注意机制来调节机器人不同肢体之间的交互。实验结果表明，该方法不仅改善了各种训练机器人的学习性能，还以零样本方式更好地推广到未见过的形态。

Feb, 2023

进化储层用于元强化学习

通过进化和发展之间的相互作用，本文提出了一种计算模型来研究能够使生物适应环境的机制，并使用元强化学习作为计算框架。通过进化递归神经网络架构的超参数而非权重值来生成的水库，可以促进复杂任务的学习、局部可观测任务的解决、促进运动任务学习中的振荡动力学以及学习行为的泛化能力。

Dec, 2023

基于演化课程训练的 DRL 导航系统训练

本文介绍了一种名为进化课程训练的新方法，以应对机器人避碰中经常出现的一些挑战，包括在结构化环境中适应多种行人，本方法能够提高深度强化学习模型在此类复杂场景中的成功率和降低平均碰撞率。

Jun, 2023

基于遗憾的环境设计进化课程

通过把环境设计作为学生和教师之间的游戏，并使用基于遗憾的目标在学生代理的能力边界上生成环境实例（或水平），我们提出了一种新的方法 ACCEL，以在一个有原则的遗憾主导的课程中利用演化的能力，从而产生逐渐越来越复杂的课程。

Mar, 2022

强化学习用于自由形态机器人设计

受动物形态适应的必要性的启发，一系列工作试图拓展机器人训练，以涵盖机器人设计的物理方面。然而，目前只有旋转或调整既定和静态拓扑属的肢体的强化学习方法。本文展示了一种设计具有任意外部和内部结构的自由形态机器人的策略梯度方法，通过使用放置或移除原子建筑块束以形成高级非参数宏结构，如附件、器官和腔室。尽管仅提供了开环控制的结果，但我们讨论了如何将该方法改进为闭环控制，并在未来实现从模拟到真实物理机器的转移。

Oct, 2023