BriefGPT.xyz
大模型
Ask
alpha
关键词
optimal policy learning
搜索结果 - 2
降维多目标策略学习与优化
通过降维回归模型,我们提出了一种数据驱动的方法,以多目标的最优政策学习为背景,从观测结果中学习出真实结果的低维度表示。我们的方法在政策评估和优化中降低了估计误差,通过降低噪音社会结果的方差,提高了算法分配的性能。
PDF
2 months ago
多动作场景中基于观测数据的最优策略学习:估计、风险偏好和潜在失败
该论文讨论了使用观察数据进行最优策略学习(OPL)的多行动(或多臂)设置下的数据驱动最优决策问题,分别从估计、风险偏好和潜在失败三个方面进行了讨论,并提出了关于线下最优策略学习估计器的识别假设和统计特性,以及决策风险分析和最优选择受决策者风
→
PDF
3 months ago
Prev
Next