Jun, 2023

SARC:软性演员回顾评论家

TL;DR本文提出了软演员回溯评论家(SARC)算法,通过增加回溯损失项来改进 SAC 的评论家学习,从而提高政策梯度估计和实现更好的策略,在基准环境中展示了 SARC 对 SAC 的持续改进表现。