受托机构强盗

ICMLMay, 2019

Fiduciary Bandits

Gal Bahar, Omer Ben-Porat, Kevin Leyton-Brown, Moshe Tennenholtz

TL;DR本文介绍了一种新的推荐系统模型，其面临探索 - 开发折衷，并可以被建模为多臂老虎机设置，由于用户具有自利性质，因此不能被强制性遵循推荐，作者提出了一种算法以探索为基础，同时考虑到代理人的利益，是一个渐进最优、刺激兼容、先验个体理性的推荐算法。

Abstract

recommendation systems often face exploration-exploitation tradeoffs: the system can only learn about the desirability of new options by recommending them to some user. Such systems can thus be modeled as multi-a

recommendation systems multi-armed bandit settings exploration-exploitation tradeoffs incentive compatible individually rational recommendation algorithm

发现论文，激发创造

具有异质代理的贝叶斯探索

该研究考虑利用 Bayesian Exploration 方法设计推荐系统，通过信息不对等来鼓励用户进行探索，此外还将用户分为不同类型，以实现最佳的个性化推荐。

Feb, 2019

贝叶斯激励兼容赌徒探索

研究说明在互联网经济和医疗决策等环境中，每个决策者对信息进行开采利用，并产生可能有助于未来决策的信息，社会规划者通过信息披露来鼓励代理商在探索和开采之间取得平衡，从而最大化社会福利，文中提供了一个多臂赌博问题的激励兼容算法，其遗憾在所有多臂赌博算法中（不管是否具有激励兼容性）是渐进最优的。

Feb, 2015

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

推荐系统中的曝光限制学习

本文提出了一种上下文多臂赌博机模型来解决推荐系统中内容提供商对曝光量的依赖性，并开发具有次线性遗憾度和优化目标的算法，该算法的目标是最大程度地提高用户的福利和保留至关重要的内容提供商。

Feb, 2023

贝叶斯探索：在贝叶斯博弈中激励探索

本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费，重点关注探索、开发和利益激励之间的平衡，并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明，经过实验模拟，设计的建议政策可以达到恒定的遗憾值，即使在面对随机收益时也可以达到对数遗憾。

Feb, 2016

交互式个性化音乐推荐中的探索：一种强化学习方法

本文提出了一种基于强化学习和贝叶斯模型的音乐推荐和播放列表生成方法，探讨了探索和利用用户偏好的平衡，并表明这种新方法具有很强的潜力。

Nov, 2013

竞争中的学习：对抗式赌博机

研究系统在进行学习和获取新信息的探索过程中如何平衡用户的需求和竞争，通过考虑多臂赌博算法之间的竞争和用户的不同反应模型，研究竞争是否促进更好的算法的采用，这与经济学中的 “竞争与创新” 关系密切相关。

Feb, 2017

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013

学习算法和推荐系统中的风险规避

研究在线学习算法中存在的风险规避现象，它如何影响推荐系统的需求和内容创作者的创作，以及如何通过平衡内容的稳定性和质量来解决这一问题。

May, 2022

奖励漂移下的多臂赌博机激励探索

本文研究了多臂赌博机问题中的激励探索方法，分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿，在激励探索方面是有效的。

Nov, 2019