Feb, 2021

深层潜在竞争:使用视觉控制策略在潜在空间学习赛车

TL;DR该论文介绍了一种名为 Deep Latent Competition(DLC)的强化学习算法,其可以通过自我博弈在想象中学习竞争性视觉控制策略,从而实现长期推理。DLC 代理人在学习的世界模型的紧凑潜在空间中想象多智能体互动序列以减少实际采样生成的成本,同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在需要从图像观察中进行规划的新颖多智能体比赛基准测试中学习了有效的竞争行为。