Jun, 2020

部分观测下的代理建模用于深度强化学习

TL;DR为了消除现有的管理机构建模中对受控代理的局部信息和选择动作的假设,该研究使用编码器 - 解码器结构从受控代理的局部信息中提取表示,并在训练期间使用管理代理的观察和动作来学习提取关于管理代理的表示,从而增强了管理代理的决策策略。提供了对合作、竞争和混合多代理环境的全面评估和消融研究,并表明我们的方法比不使用学习表示的基线方法产生更高的回报。