Feb, 2020

基于协变量偏移的对外有效性的非策略评估与学习

TL;DR该研究旨在探讨如何利用历史数据评估和训练新政策,避免协变量偏移的问题,并提出有效的估算器和比较其理论性质。