Oct, 2019

无需向前预测的学习:没有前向预测的世界模型

TL;DR本研究介绍了一种名为'observational dropout'的改进强化学习方法,该方法通过限制智能体在每个时间步的真实环境观察能力,强制智能体学习填补观察不足的世界模型,结果表明基于这种模型的强化学习算法可以提高智能体的学习效率和执行能力。