Feb, 2024

大动作空间的贝叶斯离策评估和学习

TL;DR在互动系统中,我们引入了一个统一的贝叶斯框架来捕捉动作之间的相关性,通过结构化和信息化的先验概率实现了更样本高效的离策略评估和学习,同时保持了计算效率。通过引入基于贝叶斯指标的在线贝叶斯赌博师,我们分析了 sDM 在离策略评估和学习中的性能,突出了利用动作相关性的优势。经验证据展示了 sDM 的强大性能。