用户有限注意力的利用：失配、学习和排序

Feb, 2024

用户有限注意力的利用：失配、学习和排序

Misalignment, Learning, and Ranking: Harnessing Users Limited Attention

Arpit Agarwal, Rad Niazadeh, Prathamesh Patil

TL;DR使用用户的有限注意力解决推荐系统中的长期回报偏差问题，通过在线贪心算法和多项式时间算法降低后悔度和寻优问题。

Abstract

In digital health and EdTech, recommendation systems face a significant challenge: users often choose impulsively, in ways that conflict with the platform's long-term payoffs. This misalignment makes it difficult

recommendation systems payoffs limited attention spans online bandit algorithms regret

发现论文，激发创造

在线平台中自适应学习选择 - 排序

优化用户排序列表的算法将用户偏好和物品位置的变化考虑在内，通过上界调整预测的用户满意度分数，并选择最大化这些调整分数的排序操作，以在异质用户中个性化用户体验。该算法在实验中表现优于基线模型。

Jun, 2024

不耐烦赌徒：无需延迟的长期优化

在在线平台中，推荐系统是一个普遍存在的功能，越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务，将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡：等待全部奖励可用可能需要几个星期，从而影响学习的速度，而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先，我们开发了一个预测延迟奖励的模型，该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测（短期或中期结果）结合起来，得到概率信念。其次，我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题，期望在两个月内找到用户重复参与的节目。经验证明，我们的方法相比于优化短期代理或等待完全实现长期结果的方法，能够显著提高性能。

Jul, 2023

BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

本文提出一种在线学习算法 BanditQ，基于队列理论和在线学习相结合，实现公平在线预测，并在信息完整的情况下，达到目标约束，同时实现 $O (T^{3/4})$ 的损失率。

Apr, 2023

克服在线学习排名中的先验错误规定

在线学习排序的领域，Bayesian ranking bandit algorithms 已被证明可以使用先前的知识来提高效能。本文提出并分析了自适应的算法，解决了现有工作需要匹配真实先验的主要局限性，并将这些结果扩展到线性和广义线性模型。此外，我们还考虑点击反馈措施，并通过合成和现实世界实验证明了我们算法的有效性。

Jan, 2023

基于上下文多臂赌博机的时变用户兴趣个性化推荐

研究了在高度非静态环境中的情境赌博问题，提出了一种高效的自适应学习算法，并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下，实现了遗憾的亚线性缩放。此外，将该算法扩展到混合收益的更一般情况下，并进行了实证实验，证明了该算法在两种设置下对基线算法的优势。

Feb, 2020

基于赌博机的个性化算法框架中的偏差控制

本研究提出了一种算法框架，使得在通过类似赌博机学习用户喜好进行内容个性化推荐过程中能够控制偏差和歧视，并通过实验验证了该算法的可行性和效果。

Feb, 2018

基于随机点击模型的在线学习排序的对抗攻击

本文提出针对在线学习排名的对抗攻击研究，依托排名列表污染来攻击 OLTR 算法，实验结果验证了该攻击策略的有效性和成本效益。

May, 2023

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

基于位置模型的多臂赌博反馈排序学习

本文介绍了一种基于多臂老虎机算法和位置点击模型的方法，用于解决线上系统中推荐排名的偏见问题，并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。

Apr, 2020

激励兼容的赌博算法：不再依赖重要性加权

提出了一种优化算法解决自利代理人可能不真实声明其偏好的问题，并达到接近最佳后悔度的保证，尤其在信息完全与朴素赌博设置中表现出色。

May, 2024