关键词counterfactual risk minimization
搜索结果 - 6
- 神经网络半反事实风险最小化
提出了基于反事实风险最小化和反向倾向得分估计器的方法以最小化风险,尝试解决某些样本的奖励反馈缺失的问题,并针对该问题提出了正则化的反事实风险最小化算法和基于生成伪奖励的算法。
- MM提高离线情境感知强化学习的分布鲁棒性
本文扩展了分布鲁棒优化方法,提出了 Counterfactual Risk Minimization 原则的凸重构方法,介绍了通过 DRO 框架构建离线情境强化学习的渐近置信区间,使用了已知的鲁棒估计渐进性结果自动校准置信区间,并呈现了初步 - KDD修正学习方法,而非数据:电子商务产品排名的见解
文章提出采用反事实风险最小化法(CRM)来实现从真实世界的日志数据中学习排名模型,以避免需要有关性的判断和数据聚合,此方法更适合从 Logged 数据中学习,CRM 方法有效地从 Logged 数据中学习,效果显著优于基线排名器(λ-MAR - AAAI分布式稳健的反事实风险最小化
本文介绍了使用分布式鲁棒优化 (DRO) 解决交叉事实风险最小化 (CRM) 问题的想法,并证明了 DRO 是对策反决策的一种有原则的工具。我们提出了使用 Kullback-Leibler 马氏距离作为 CRM 中不确定性的代替方法,并基于 - ICML贝叶斯对抗性风险最小化
提供了一种贝叶斯视角的数学方法,支持使用 logged bandit feedback 进行离线学习,提出了一种新的 generalization bound 来估算社会可接受的风险,并引入了一种新的正则化技术来避免过拟合。
- 反事实风险最小化:从带状反馈中学习
开发了一种学习原则和一种有效算法,用于从记录的 bandit 反馈中进行批处理学习。由此产生的 Counterfactual Risk Minimization 原则提供了 POEM 的新学习方法,用于学习结构化输出预测的随机线性规则。