学习算法和推荐系统中的风险规避
内容推荐系统的负面用户影响通常被解释为平台目标与用户福利不一致。然而,本文揭示了即使平台目标与用户福利完全一致,学习算法也可能引起用户的负面影响。用户反馈速率的差异可能影响学习算法与不同内容的互动,进而无意中推广具有特定属性的内容。我们的研究结果强调了除了后悔之外,对算法性能的评估还需要关注学习算法与不同类型内容的互动方式及其带来的下游影响。
Jan, 2024
本文提出了一种上下文多臂赌博机模型来解决推荐系统中内容提供商对曝光量的依赖性,并开发具有次线性遗憾度和优化目标的算法,该算法的目标是最大程度地提高用户的福利和保留至关重要的内容提供商。
Feb, 2023
介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法,提供标准随机噪声环境下的尖锐遗憾分析,证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示,在赌徒问题上,预测性能显著优于现有技术方法。
Jan, 2014
本文提出一种在线学习算法 BanditQ,基于队列理论和在线学习相结合,实现公平在线预测,并在信息完整的情况下,达到目标约束,同时实现 $O (T^{3/4})$ 的损失率。
Apr, 2023
本文研究了在线凸优化的问题,在该问题中,决策者是风险规避的。我们提供了两个算法来解决这个问题。第一个是降落算法,易于实现。第二个算法结合了椭圆体方法和中心点装置,对于回合数实现了(几乎)最优的后悔界限。据我们所知,这是在在线凸博弈问题中首次尝试解决风险规避问题。
Oct, 2018
在复杂拍卖场景中,我们提出了一种在线学习方法,通过利用投标方的效用结构和部分反馈,为拍卖算法提供对最佳固定竞标的遗憾率,这对于行动空间的依赖程度来说比应用通用的贝叶斯智能带宽算法要快指数级收敛,同时又几乎等同于在完全信息环境下所实现的收敛,这些结果是通过分析这一新的基于反馈的在线学习方法实现的。
Nov, 2017