带有并行可微模拟的加速策略学习

Apr, 2022

带有并行可微模拟的加速策略学习

Accelerated Policy Learning with Parallel Differentiable Simulation

Jie Xu, Viktor Makoviychuk, Yashraj Narang, Fabio Ramos, Wojciech Matusik...

TL;DR本文提出 SHAC 算法，该算法基于高性能可微分模拟器，可以有效利用模拟梯度，避免局部最小值问题，并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。

Abstract

deep reinforcement learning can generate complex control policies, but requires large amounts of training data to work effectively. Recent work has attempted to address this issue by leveraging differentiable simulators

deep reinforcement learning differentiable simulators policy learning algorithm non-smoothness sample efficiency

发现论文，激发创造

利用可微分模拟学习四足动物运动

提出了可用于实际四足机器人控制的可微分仿真框架，能够在短时间内实现四足机器人的多种暴走技能，以及在现实世界中的鲁棒步态表现。

Mar, 2024

基于图像的机器人学习的非对称演员 - 评论家算法

本研究使用深度强化学习的 actor-critic 算法，利用物理模拟器的完全状态可观测性，针对机器人操作中的部分观测（RGBD 图像）的问题进行训练，通过使用不对称输入来显著提高性能，并使用领域随机化的方法，实现了在没有真实世界数据的情况下，在真实机器人上进行的模拟到真实世界的转移。

Oct, 2017

从全局角度重新审视可微分仿真优化

本文研究了 differentiable simulation 在含有刚体和可变形物体的情景下所面临的挑战，提出了一种使用贝叶斯优化和半局部 “跳跃” 的方法来获得全局搜索方法的方案，并在模拟实验和实际机器人实验中验证了该方法的有效性。

Jun, 2022

模拟、快慢学习：学习黑箱优化的策略

通过学习主动学习策略和使用代理模型的梯度从而使用梯度下降法优化模拟参数，本文引入了一种新的方法来解决类似黑盒优化问题的一类问题。经过训练后，相对于局部代理模型方法、数值优化和贝叶斯方法，基于黑盒模拟器的问题的下游优化仅需要约 90％较少的昂贵模拟调用。

Jun, 2024

学习模拟

本研究提出了一种基于强化学习的方法，用于自动调整非可微模拟器的参数，从而控制合成数据的分布以最大化模型的精度，相较于现有技术，该方法全面控制模拟器以最大化精度。

Oct, 2018

基于 GPU 加速的分布式强化学习机器人仿真

使用 GPU 加速物理引擎 NVIDIA Flex 模拟机器人学习在连续控制和运动任务上表现出了极大的优势，使用少量的 CPU 与单 GPU 即可短时间内训练出高效的机器人智能。

Oct, 2018

接触丰富可微分模拟中的政策学习自适应视野演员评论家

探讨了模型自由强化学习方法的优化问题，引入了一种基于模型的算法 (AHAC)，通过适应模型的 horizon 避免 stiff dynamics，实验结果表明 AHAC 在特定任务中表现优于传统方法，具有更好的时间效率。

May, 2024

可微模拟器是否提供更好的策略梯度？

本研究探讨了可微分模拟器在长期规划和物理系统控制等复杂领域中的性能因素，提出了一种 alpha 阶梯度估计器以结合一阶估计的效率和零阶方法的鲁棒性，并在数值示例中证明其优点

Feb, 2022

零样本 Sim2Real 环境自适应

提出了使用 Reverse Action Transformation（RAT）策略的方法来解决模拟到现实世界之间的转换问题，并且和其他基线模型相比，在连续控制任务中可实现零样本适应。

Feb, 2023

深度强化学习的加速方法

探究了如何优化现有的深度强化学习算法以适应现代计算机，特别是在 CPU 和 GPU 的组合下使用许多并行模拟器实例进行训练，并建立了一个统一的并行化框架，使用 GPU 加速数据收集和训练，成功地在短短几分钟内使用整个 DGX-1 在 Atari 游戏中学习出成功的策略。

Mar, 2018