Jul, 2019

关于强化学习中的困难探索:Pommerman的案例研究

TL;DR本研究研究了如何在具有稀疏、延迟和欺骗性回报的域中进行最佳探索,通过分析Pommerman的难度,提出了一种基于模型的自动推理模块,可以用于更安全的探索,通过实验证明了该模块可以显著提高学习效果。