本文针对在线个性化设置中排名的公平性问题,从公平的机器学习模型开始,探讨了在线个性化如何导致模型不公平,并提出了一种基于正则化的方法来缓解机器学习中的偏差。
Jul, 2020
为了解决个性化推荐中传统策略可能导致的不公平现象,提出了一种新的基于功绩公平的策略,并给出了两种算法,分别适用于多臂老虎机和线性老虎机,证明了算法的功绩公平和奖励公平具有亚线性,同时提供了实证分析,证明了该算法能够有效地公平分配推荐曝光。
Mar, 2021
本研究呈现了一个新闻搜索引擎的原型,该引擎根据用户定义的灵活限制,以平衡的视角呈现自由派和保守派文章,目的是减少极端化内容,帮助用户逃脱信息过滤泡沫。此项平衡工作利用最近的约束 乐观算法优化技术实现。研究通过将传统的(极端化的)新闻订阅与平衡新闻订阅并列展示来展示其平衡新闻流。
Jun, 2018
本文介绍了一种基于多臂老虎机算法和位置点击模型的方法,用于解决线上系统中推荐排名的偏见问题,并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。
Apr, 2020
该研究提出了一种可避免过滤气泡的内容筛选和个性化模型,该模型采用多臂赌博机策略,并提供了算法保证和匹配下限。为了避免过滤气泡,该作者集中在由 $i$ 用户在 $T$ 时间步内与平台互动选择来自 $k$ 个类别的内容,同时该平台根据多臂赌博机的概率同时展示少量的不同内容。最后我们提出了一个新型模型,该模型更公平地分配了举例分散的负担,可对推荐进行优化。
May, 2023
本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
Aug, 2020
内容推荐系统的负面用户影响通常被解释为平台目标与用户福利不一致。然而,本文揭示了即使平台目标与用户福利完全一致,学习算法也可能引起用户的负面影响。用户反馈速率的差异可能影响学习算法与不同内容的互动,进而无意中推广具有特定属性的内容。我们的研究结果强调了除了后悔之外,对算法性能的评估还需要关注学习算法与不同类型内容的互动方式及其带来的下游影响。
Jan, 2024
本文提出了一种基于上下文的赌博算法来模拟个性化推荐新闻文章,该算法在学习过程中考虑到用户和文章的背景信息,并根据用户对文章的反馈调整文章选择策略以最大化总的用户点击率。实验结果表明,相较于标准的基于上下文的赌博算法,本方法提高了 12.5% 的点击率。
Feb, 2010
文章介绍了一种结合在线 Primal-dual 算法和上下文强化学习算法的优化和学习算法来解决数字健康领域中的个性化治疗问题,并证明该算法具有亚线性后悔界限。
本文介绍一种称为 Bandit 数据驱动优化的迭代预测 - 处方框架,该框架结合在线 Bandit 学习和离线预测分析的优点。我们提出了一种新算法 PROOF,用于解决机器学习管道中四个主要痛点,即小数据,仅在默认干预下收集的数据,沟通差异导致未建模的目标和干预的意外后果。在数值模拟和实际案例分析中表现出优异的性能。