多保真训练在通用策略网络上进行的机器人代理简化设计

Sep, 2023

多保真训练在通用策略网络上进行的机器人代理简化设计

Sample-Efficient Co-Design of Robotic Agents Using Multi-fidelity Training on Universal Policy Network

Kishan R. Nagiredla, Buddhika L. Semage, Thommen G. Karimpanal, Arun Kumar A. V, Santu Rana

TL;DR通过 Hyperband 方法，我们建议一种多保真度的设计探索策略，以改善协同设计中控制器学习的样本效率，并通过普适策略学习器将学习到的控制器与设计空间相结合，以 warm-start 新的控制器学习问题。实验结果表明，我们的方法相比基准方法在广泛的代理设计问题上更为优越，此外，优化后的设计中呈现出设计简化和非直观设计改变等有趣的设计变化。

Abstract

co-design involves simultaneously optimizing the controller and agents physical design. Its inherent bi-level optimization formulation necessitates an outer loop design optimization driven by an inner loop control optimization. This can be challenging when the design space is large and

co-design controller optimization multi-fidelity design exploration universal policy learner design alterations

发现论文，激发创造

深度强化学习联合学习构造和控制智能体

运用深度强化学习，开发能够同时优化机器人设计和控制策略的方法，在机器人行走的场景下展示出在性能和效率方面均优于基准算法的优越性。

Jan, 2018

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022

超参数调整的实用多保真贝叶斯优化

本篇论文提出了一种基于知识梯度的多保真度贝叶斯优化方法，能在深度神经网络和大规模核学习的超参数调整方面表现优异，并有效解决了验证误差的计算问题。

Mar, 2019

关于计算部分可观察多智体路径规划通用方案的研究

本文研究多智能体路径规划问题，通过提出通用计划作为解决方案，并实现名为 ASP-MAUPF 的系统进行计算，从而找到每个代理的可行的通用计划，以确保不与其他代理发生冲突。

May, 2023

约束进化体现神经智能的共同设计

通过深度强化学习和进化算法以及用户控制相结合的方法，介绍了一种创新的协同设计方法，以形态属性和运动为自主移动代理提供良好的设计和行为。

May, 2022

高效自动化深度强化学习

本文提出了一种基于群体的自动化强化学习（AutoRL）框架，该框架在优化超参数和神经网络结构的同时训练智能体，提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中，我们将元优化所需的环境交互次数减少了一个数量级。

Sep, 2020

基于元强化学习的腿式机器人最优设计

本文提出了一种基于模型无关元强化学习的设计优化框架，以及其应用于四足机器人运动学和执行器参数优化的方法，结果表明我们的元策略能够控制不同设计的机器人在多种复杂路况下实现随机速度命令的跟踪，而且相比于基于模型的基准线方法，我们的方法不受预定义动作或步态模式的约束，能够提供更高的性能。

Oct, 2022

基于概率模型的强化学习合成神经网络控制器

本研究提出了一种基于模型的强化学习算法，通过训练具有可校准不确定性的神经网络动力学模型，实现对机器人系统控制器的快速学习，并在多项基准任务中验证了该算法的高效性和可扩展性，包括针对六足水下自主机器人的运动控制器学习。

Mar, 2018

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

多臂老虎机用于多任务神经求解器的高效训练

本文提出了一种基于多臂老虎机的通用高效训练模式，通过理论损失分解和逐任务影响矩阵使多任务神经求解器的训练更高效，证明了该方法的优越性和在多任务大模型训练中的应用前景。

May, 2023