Jan, 2022

链式价值函数用于离策略学习

TL;DR该论文提出了一种新的家族离线预测算法,通过构建一系列价值函数来实现稳定的模型迭代,算法收敛且可以有效的处理离线强化学习过程中的问题。