上下文多臂老虎机的离线策略优化：高效的谨慎性

Jun, 2023

Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits

Lequn Wang, Akshay Krishnamurthy, Aleksandrs Slivkins

TL;DR本文介绍了一种称为`pessimistic policy optimization`的算法，用于处理contextual bandits中的策略优化问题，并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法，在离线交互日志的基础上进行训练，非常适用于处理连续和离散行为空间的问题。

Abstract

We consider policy optimization in contextual bandits, where one is given a fixed dataset of logged interactions. While pessimistic regularizers<