可微模拟器是否提供更好的策略梯度？

ICMLFeb, 2022

可微模拟器是否提供更好的策略梯度？

Do Differentiable Simulators Give Better Policy Gradients?

H.J. Terry Suh, Max Simchowitz, Kaiqing Zhang, Russ Tedrake

TL;DR本研究探讨了可微分模拟器在长期规划和物理系统控制等复杂领域中的性能因素，提出了一种 alpha 阶梯度估计器以结合一阶估计的效率和零阶方法的鲁棒性，并在数值示例中证明其优点

Abstract

differentiable simulators promise faster computation time for reinforcement learning by replacing zeroth-order gradient estimates of a stochastic objective with an estimate based on first-order gradients. However, it is yet unclear what factors decide the performance of the two estimat

differentiable simulators reinforcement learning gradient estimation physical systems alpha-order gradient estimator

发现论文，激发创造

带有并行可微模拟的加速策略学习

本文提出 SHAC 算法，该算法基于高性能可微分模拟器，可以有效利用模拟梯度，避免局部最小值问题，并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。

Apr, 2022

从全局角度重新审视可微分仿真优化

本文研究了 differentiable simulation 在含有刚体和可变形物体的情景下所面临的挑战，提出了一种使用贝叶斯优化和半局部 “跳跃” 的方法来获得全局搜索方法的方案，并在模拟实验和实际机器人实验中验证了该方法的有效性。

Jun, 2022

模拟、快慢学习：学习黑箱优化的策略

通过学习主动学习策略和使用代理模型的梯度从而使用梯度下降法优化模拟参数，本文引入了一种新的方法来解决类似黑盒优化问题的一类问题。经过训练后，相对于局部代理模型方法、数值优化和贝叶斯方法，基于黑盒模拟器的问题的下游优化仅需要约 90％较少的昂贵模拟调用。

Jun, 2024

一种针对策略梯度的测度导数的实证分析

本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用，结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。

Jul, 2021

接触丰富可微分模拟中的政策学习自适应视野演员评论家

探讨了模型自由强化学习方法的优化问题，引入了一种基于模型的算法 (AHAC)，通过适应模型的 horizon 避免 stiff dynamics，实验结果表明 AHAC 在特定任务中表现优于传统方法，具有更好的时间效率。

May, 2024

利用可微分模拟学习四足动物运动

提出了可用于实际四足机器人控制的可微分仿真框架，能够在短时间内实现四足机器人的多种暴走技能，以及在现实世界中的鲁棒步态表现。

Mar, 2024

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023

强化学习中可微分多样性的梯度逼近

探讨在训练鲁棒性强的机器人智能体中，使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法，并使用四种机器人仿真测试其性能，揭示当前算法在需要近似梯度的领域中的局限性。

Feb, 2022

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019