Dec, 2023
CACTO-SL:使用Sobolev学习优化连续的Actor-Critic和轨迹优化
CACTO-SL: Using Sobolev Learning to improve Continuous Actor-Critic with
Trajectory Optimization
Elisa Alboni, Gianluigi Grandesso, Gastone Pietro Rosati Papini, Justin Carpentier, Andrea Del Prete
TL;DR本研究提出了一种基于轨迹优化和强化学习的算法CACTO-SL,通过使用梯度和值函数来加速批评网络的训练,实验证明该算法比原始的CACTO更高效,能够减少计算时间和寻找更好的极小值,同时产生更一致的结果。