Mar, 2023

Wasserstein Actor-Critic:基于乐观主义的连续动作控制导向探索

TL;DR本文提出基于 Wasserstein Q-Learning 的 Wasserstein Actor-Critic (WAC) 体系结构,通过使用近似的 Q 后验表示表示先验不确定性,并使用 Wasserstein barycenters 在状态动作空间中传播不确定性。最终,在标准 MujoCo 任务以及一系列需要探索的连续动作领域中评估我们的算法和基线。