ICLRFeb, 2020

广义离线估计稳定值

TL;DR通过基于可变分歧最小化的约束重构,估计了马尔科夫链稳态分布的量,提出了一个简单而有效的算法 GenDICE,在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。