Jul, 2017

宽松的多智能体深度强化学习

TL;DR本研究将宽容度应用于多智能体深度强化学习中,通过控制弱化负面策略更新所用的温度值,引入了乐观主义来更新价值函数,从而促进了协作,并在长期规划进程中很可能收敛到最优策略。实证评估表明,相比于标准和调度HDQN代理,LDQN代理更有可能在具有随机奖励的任务中收敛到最优策略。