Oct, 2023

解耦的 Actor-Critic

TL;DR我们提出了一种名为 Decoupled Actor-Critic(DAC)的离策略算法,通过梯度反向传播学习两个不同的演员:一个保守的演员用于时序差分学习,一个乐观的演员用于探索。在 DeepMind Control 任务中,DAC 在低和高回放比例的情况下,并结合了多个设计选择,取得了最新的表现和样本效率。