Dec, 2023

CACTO-SL:使用Sobolev学习优化连续的Actor-Critic和轨迹优化

TL;DR本研究提出了一种基于轨迹优化和强化学习的算法CACTO-SL,通过使用梯度和值函数来加速批评网络的训练,实验证明该算法比原始的CACTO更高效,能够减少计算时间和寻找更好的极小值,同时产生更一致的结果。