Sep, 2023
多保真训练在通用策略网络上进行的机器人代理简化设计
Sample-Efficient Co-Design of Robotic Agents Using Multi-fidelity Training on Universal Policy Network
Kishan R. Nagiredla, Buddhika L. Semage, Thommen G. Karimpanal, Arun Kumar A. V, Santu Rana
TL;DR通过 Hyperband 方法,我们建议一种多保真度的设计探索策略,以改善协同设计中控制器学习的样本效率,并通过普适策略学习器将学习到的控制器与设计空间相结合,以 warm-start 新的控制器学习问题。实验结果表明,我们的方法相比基准方法在广泛的代理设计问题上更为优越,此外,优化后的设计中呈现出设计简化和非直观设计改变等有趣的设计变化。