Feb, 2017

一致的在线反事实评估

TL;DR本文提出了一种称为 COP-TD(λ,β)的算法,该算法可以提高在线行为评估(OPE)的表现,减少偏差,并消除行为和目标策略之间的差异,并且在应用函数近似时收敛到与使用 lambda 策略相同的结果。同时,这个算法也和已有算法相比取得了更好的结果。