Dec, 2018
在观测设置中去卷积强化学习
Deconfounding Reinforcement Learning in Observational Settings
Chaochao Lu, Bernhard Schölkopf, José Miguel Hernández-Lobato
TL;DR该论文提出了一种通用的强化学习算法,针对观测数据中未观察到的因素(混杂因素)影响观察到的行为和奖励,学习从历史数据中得出好的策略,使用修改的 OpenAI Gym 环境和 MNIST 数据集开发了新的基准测试,并且证明了该算法在混淆的环境中的优越性。