Feb, 2024

通过优化概括方法评估推荐策略的离策略算法

TL;DR我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法,称为潜在 IPS(LIPS),它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差,从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设,通过实证评估,我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。