Jun, 2023

上下文多臂老虎机的离线策略优化:高效的谨慎性

TL;DR本文介绍了一种称为 `pessimistic policy optimization` 的算法,用于处理 contextual bandits 中的策略优化问题,并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法,在离线交互日志的基础上进行训练,非常适用于处理连续和离散行为空间的问题。