May, 2021
深度离线策略评估的仪器变量回归
On Instrumental Variable Regression for Deep Offline Policy Evaluation
Yutian Chen, Liyuan Xu, Caglar Gulcehre, Tom Le Paine, Arthur Gretton...
TL;DR该研究探讨了在采用深度强化学习中估计状态行为值函数(Q 函数)时出现的混淆问题,以及如何运用因果推断学中的工具来解决混淆问题,并提供了一些性能良好的解决方案。