Jan, 2023

用于脱机策略评估的变分潜在分支模型

TL;DR本篇论文探讨了利用变分潜在分支模型(VLBM)学习(行动)决策过程的转移函数,并通过轨迹模拟评估其性能,表明VLBM优于现有OPE方法。