NIPSFeb, 2019

一种用于选择强化学习智能体的赌博机框架

TL;DR本文提出一种基于多臂赌博机框架的深度强化学习方法,通过选择最适合特定应用的学习模型和增强学习代理,解决了实际应用中环境不明确和奖励不稳定等问题。实验结果表明该方法在标准环境下能够选出最优代理,并且相较于其他策略在同样步数内获得更高的累计奖励值。