ICMLJan, 2020

GradientDICE: 重新思考广义离线估计方式下的固定值

TL;DRGradientDICE 提出了一种基于 Perron-Frobenius 定理、采用线性函数逼近来优化不同目标的算法,解决了基于状态分布估计采样分布下密度比的凸凹问题,比 GenDICE 更加稳健且简洁。