BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-action settings
搜索结果 - 1
多动作场景中基于观测数据的最优策略学习:估计、风险偏好和潜在失败
该论文讨论了使用观察数据进行最优策略学习(OPL)的多行动(或多臂)设置下的数据驱动最优决策问题,分别从估计、风险偏好和潜在失败三个方面进行了讨论,并提出了关于线下最优策略学习估计器的识别假设和统计特性,以及决策风险分析和最优选择受决策者风
→
PDF
3 months ago
Prev
Next