AAAIJul, 2019

深度强化学习的辅助任务 —— 代理建模

TL;DR本文探讨了如何将演员 - 评论家(Actor-Critic)方法在深度强化学习中,尤其是异步优势演员评论家(A3C)与代理建模相结合。我们提出了两种体系结构来执行代理建模,旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明,所提出的体系结构稳定了学习,并在学习期望报酬最佳响应时优于标准 A3C 体系结构。