Mar, 2024

多动作场景中基于观测数据的最优策略学习:估计、风险偏好和潜在失败

TL;DR该论文讨论了使用观察数据进行最优策略学习(OPL)的多行动(或多臂)设置下的数据驱动最优决策问题,分别从估计、风险偏好和潜在失败三个方面进行了讨论,并提出了关于线下最优策略学习估计器的识别假设和统计特性,以及决策风险分析和最优选择受决策者风险态度的影响,最后讨论了影响最优数据驱动决策的条件限制。