BriefGPT.xyz
Ask
alpha
关键词
differential dynamic programming
搜索结果 - 3
CACTO-SL:使用 Sobolev 学习优化连续的 Actor-Critic 和轨迹优化
本研究提出了一种基于轨迹优化和强化学习的算法 CACTO-SL,通过使用梯度和值函数来加速批评网络的训练,实验证明该算法比原始的 CACTO 更高效,能够减少计算时间和寻找更好的极小值,同时产生更一致的结果。
PDF
7 months ago
利用随机平滑技术优化控制非光滑动力系统
本文利用随机平滑 (Randomized Smoothing) 方式解决了在非光滑动力系统中,优化控制算法(Optimal Control Algorithm)的问题,并通过随机化差分动态规划 (Randomized Differentia
→
PDF
2 years ago
ICLR
DDPNOpt:微分动态规划神经优化器
本研究旨在将深度神经网络的训练过程从轨迹优化的角度重新制定,提出了一种基于差分动态规划的优化器,DDP Neural Optimizer(DDPNOpt),其具有层间反馈策略、收敛性高等优点,且在避免梯度消失方面表现出惊人的优越性,展示了基
→
PDF
4 years ago
Prev
Next