Jun, 2020

过度参数化模型下的离线情境挑战

TL;DR该论文研究了过参数化模型在离线上下文赌博中的泛化能力,在价值算法中与过参数化监督学习类似,策略算法却不是这样。我们证明了价值目标是稳定的,策略目标是不稳定的。实验证明了此现象的可靠性。