Feb, 2024

ACE:具有因果感知熵调整的离策略演员 - 评论家算法

TL;DR我们提出了 ACE 算法:基于因果关系的策略梯度法,通过引入因果关系熵项和梯度休眠现象引导重置机制,取得了在连续控制任务上显著的性能优势。