竞争中的学习：对抗式赌博机

Feb, 2017

Competing Bandits: Learning under Competition

Yishay Mansour, Aleksandrs Slivkins, Zhiwei Steven Wu

TL;DR研究系统在进行学习和获取新信息的探索过程中如何平衡用户的需求和竞争，通过考虑多臂赌博算法之间的竞争和用户的不同反应模型，研究竞争是否促进更好的算法的采用，这与经济学中的 “竞争与创新” 关系密切相关。

Abstract

Most modern systems strive to learn from interactions with users, and many engage in exploration: making potentially suboptimal choices for the sake of acquiring new information. We initiate a study of the interplay between →

exploration competition multi-armed bandit algorithms user response innovation

发现论文，激发创造

竞争环境下探索的危险：一种计算建模方法

通过对探索和竞争之间的相互作用进行实证研究，我们发现：在数字经济中，数据作为进入在线市场的一个障碍，可能促使更好的算法的产生，获得更高的消费者福利；在有竞争的市场中，探索可能会损害系统的声誉，进而降低市场份额，而第一个进入市场的公司则可能促进更好的算法的出现从而提高客户福利。

Feb, 2019

匹配市场中的竞争赌徒

本研究提出了一种统计学习模型，用于解决双边市场中的稳定匹配问题，其中一方需从随机奖励中学习另一方的偏好，该模型扩展了标准的多臂赌博机框架，并研究了集中式和分散式方法，发现与单人多臂赌博机设置相比，具有令人惊讶的探索 - 利用权衡。

Jun, 2019

贝叶斯激励兼容赌徒探索

研究说明在互联网经济和医疗决策等环境中，每个决策者对信息进行开采利用，并产生可能有助于未来决策的信息，社会规划者通过信息披露来鼓励代理商在探索和开采之间取得平衡，从而最大化社会福利，文中提供了一个多臂赌博问题的激励兼容算法，其遗憾在所有多臂赌博算法中（不管是否具有激励兼容性）是渐进最优的。

Feb, 2015

数字市场中的竞争、对齐和平衡

该论文研究了基于数据驱动市场中较少被研究的领域，介绍了一种市场模型，发现市场竞争不能完美地使市场结果与用户效用相一致，具有一定的偏差。

Aug, 2022

受托机构强盗

本文介绍了一种新的推荐系统模型，其面临探索 - 开发折衷，并可以被建模为多臂老虎机设置，由于用户具有自利性质，因此不能被强制性遵循推荐，作者提出了一种算法以探索为基础，同时考虑到代理人的利益，是一个渐进最优、刺激兼容、先验个体理性的推荐算法。

May, 2019

基于偏好的 Dueling Bandits 在线学习：综述

本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法，关注于在序贯决策过程中进行的数据反馈和学习，并且考虑了强度信息不可用的情况。

Jul, 2018

具有异质代理的贝叶斯探索

该研究考虑利用 Bayesian Exploration 方法设计推荐系统，通过信息不对等来鼓励用户进行探索，此外还将用户分为不同类型，以实现最佳的个性化推荐。

Feb, 2019

去中心化匹配市场中的强盗学习

该研究针对两侧市场匹配问题，通过引入一种新算法，提高了在分散式多人选手竞争、无优先认知偏好和与偏好相关猜测等场景下博弈的结果鲁棒性。

Dec, 2020

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

基于乐观思维探索的大规模推荐系统

通过一系列大规模的生产推荐系统实验和深入的分析，我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化，在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈，并给出了一套测量用户探索效率的新指标设计。

Apr, 2023