Dec, 2018

在观测设置中去卷积强化学习

TL;DR该论文提出了一种通用的强化学习算法,针对观测数据中未观察到的因素(混杂因素)影响观察到的行为和奖励,学习从历史数据中得出好的策略,使用修改的 OpenAI Gym 环境和 MNIST 数据集开发了新的基准测试,并且证明了该算法在混淆的环境中的优越性。