decision policies | BriefGPT

关键词decision policies

搜索结果 - 6

针对离线策略上下文主动学习任务的最佳基线修正
将离线学习范式应用于推荐系统和排名应用，提出一个统一的框架，采用等效的均衡基准修正方法来减少估计方差，从而得到方差最优的无偏估计器。
PDF2 months ago
COIN: 机遇约束的模仿学习用于基于不确定性感知的自适应资源超额订阅策略
我们通过提出的新颖的机会约束模仿学习框架解决了在存在不确定性的情况下学习安全和稳健的决策策略的挑战，以提高资源效率并确保安全性。
PDF6 months ago
结合试验与观察数据的外部有效政策评估
使用试验数据对目标人群的政策结果进行验证，使用来自目标人群的附加协变量数据模拟试验研究中个体的抽样，开发了一种非参数的方法，确保在任何指定的模型误差范围内得到有效的基于试验的政策评估，通过模拟和真实数据对认证的政策评估进行了展示。
PDF8 months ago
带有差分隐私的离线强化学习
我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。
PDF2 years ago
随机优化森林
本文研究了背景下的随机优化问题，提出了一种基于森林决策策略的解决方案，通过开发近似分裂准则，我们能够有效降低运行时间，并在性能上接近于每个候选分裂都进行重新优化的森林算法.
PDF4 years ago
强化学习的本质高效、稳定和有界离线策略评估
本文提出了一种基于经验似然的 OPE 估算器，相对于重要性抽样、自归一化重要性抽样和双重稳健估计具有更高的效率，并满足自归一化重要性抽样的稳定性和有界性。
PDF5 years ago