May, 2021

深度离线策略评估的仪器变量回归

TL;DR该研究探讨了在采用深度强化学习中估计状态行为值函数(Q 函数)时出现的混淆问题,以及如何运用因果推断学中的工具来解决混淆问题,并提供了一些性能良好的解决方案。