开发了一种学习原则和一种有效算法,用于从记录的 bandit 反馈中进行批处理学习。由此产生的 Counterfactual Risk Minimization 原则提供了 POEM 的新学习方法,用于学习结构化输出预测的随机线性规则。
Feb, 2015
本文综述了机器学习在推荐系统日志中的训练方法,并在 RecoGym 仿真环境中进行了实验。三种不同的训练方法分别是模型奖励预测,历史推荐分布调整和倾向性分数逆向估计,并探讨了它们的优缺点和性能表现。
Apr, 2019
提供了一种贝叶斯视角的数学方法,支持使用 logged bandit feedback 进行离线学习,提出了一种新的 generalization bound 来估算社会可接受的风险,并引入了一种新的正则化技术来避免过拟合。
Jun, 2018
本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式,我们的估计器在广告设计方面得到了应用,证明了我们对标准估计器的方差降低是有效的。
Sep, 2018
本文研究了如何利用历史数据来预测目标策略的性能,并提出了两种替代方法,相比于传统方法,能够更准确地评估交互式系统的新政策。
Mar, 2017
提出了基于反事实风险最小化和反向倾向得分估计器的方法以最小化风险,尝试解决某些样本的奖励反馈缺失的问题,并针对该问题提出了正则化的反事实风险最小化算法和基于生成伪奖励的算法。
Sep, 2022
本文介绍了一种新的名为 “最大似然反向倾向评分(MLIPS)” 的方法,用于从批量日志二手反馈中学习。与现有方法相比,MLIPS 不仅具有渐近无偏性,而且具有更小的均方根误差,表现出更好的性能。
Aug, 2018
本文介绍了一种名为 POXM 的算法,该算法以选择性的重要性采样器为基础,通过选择前 p 个日志策略的行动来学习来自极端的多标签分类 (bandit feedback) 任务中的行为数据,该方法在三个不同的 XMC 数据集上显着提高了性能,并将其与三个竞争方法进行了基准测试。
Sep, 2020
使用历史数据进行预训练的自回归模型,在新闻推荐任务中通过端到端微调预训练语言模型来处理新闻文章标题文本以提高性能,并在在线决策中展示了能够理解不确定性和主动收集信息以解决环境变化的新的学习算法框架。
May, 2024
通过一系列大规模的生产推荐系统实验和深入的分析,我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化,在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈,并给出了一套测量用户探索效率的新指标设计。
Apr, 2023