学习算法和推荐系统中的风险规避

May, 2022

学习算法和推荐系统中的风险规避

Risk aversion in learning algorithms and recommendation systems

Andreas Haupt, Aroon Narayanan

TL;DR研究在线学习算法中存在的风险规避现象，它如何影响推荐系统的需求和内容创作者的创作，以及如何通过平衡内容的稳定性和质量来解决这一问题。

Abstract

Consider online learning algorithms that simultaneously make decisions and learn from feedback. Such algorithms are widely deployed in recommendation systems for products and digital content. This article exhibits a bias of →

online learning algorithms recommendation systems risk aversion content creators equilibrium forces

发现论文，激发创造

学习个性化风险偏好的推荐

本文提出了一种将机器学习和行为经济学相结合的新型风险感知型推荐框架，通过对电子商务平台中的用户风险态度进行统计分析，实现了精准的商品推荐。

Jul, 2020

在线平台中概率反馈能推动用户影响吗？

内容推荐系统的负面用户影响通常被解释为平台目标与用户福利不一致。然而，本文揭示了即使平台目标与用户福利完全一致，学习算法也可能引起用户的负面影响。用户反馈速率的差异可能影响学习算法与不同内容的互动，进而无意中推广具有特定属性的内容。我们的研究结果强调了除了后悔之外，对算法性能的评估还需要关注学习算法与不同类型内容的互动方式及其带来的下游影响。

Jan, 2024

推荐系统中的曝光限制学习

本文提出了一种上下文多臂赌博机模型来解决推荐系统中内容提供商对曝光量的依赖性，并开发具有次线性遗憾度和优化目标的算法，该算法的目标是最大程度地提高用户的福利和保留至关重要的内容提供商。

Feb, 2023

多臂赌博机中的风险规避

介绍了基于风险规避原则的随机多臂赌博机的新场景，使用方差作为风险度量，提出了两种新算法，并调研了它们的理论保证和初步实证结果.

Jan, 2013

在线集群化的赌博机

介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法，提供标准随机噪声环境下的尖锐遗憾分析，证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示，在赌徒问题上，预测性能显著优于现有技术方法。

Jan, 2014

基于赌博机的个性化算法框架中的偏差控制

本研究提出了一种算法框架，使得在通过类似赌博机学习用户喜好进行内容个性化推荐过程中能够控制偏差和歧视，并通过实验验证了该算法的可行性和效果。

Feb, 2018

BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

本文提出一种在线学习算法 BanditQ，基于队列理论和在线学习相结合，实现公平在线预测，并在信息完整的情况下，达到目标约束，同时实现 $O (T^{3/4})$ 的损失率。

Apr, 2023

风险规避的随机凸臂老虎机

本文研究了在线凸优化的问题，在该问题中，决策者是风险规避的。我们提供了两个算法来解决这个问题。第一个是降落算法，易于实现。第二个算法结合了椭圆体方法和中心点装置，对于回合数实现了（几乎）最优的后悔界限。据我们所知，这是在在线凸博弈问题中首次尝试解决风险规避问题。

Oct, 2018

用户有限注意力的利用：失配、学习和排序

使用用户的有限注意力解决推荐系统中的长期回报偏差问题，通过在线贪心算法和多项式时间算法降低后悔度和寻优问题。

Feb, 2024

不知道自己价值的情况下学习投标

在复杂拍卖场景中，我们提出了一种在线学习方法，通过利用投标方的效用结构和部分反馈，为拍卖算法提供对最佳固定竞标的遗憾率，这对于行动空间的依赖程度来说比应用通用的贝叶斯智能带宽算法要快指数级收敛，同时又几乎等同于在完全信息环境下所实现的收敛，这些结果是通过分析这一新的基于反馈的在线学习方法实现的。

Nov, 2017