去中心化匹配市场中的强盗学习

Dec, 2020

Bandit Learning in Decentralized Matching Markets

Lydia T. Liu, Feng Ruan, Horia Mania, Michael I. Jordan

TL;DR该研究针对两侧市场匹配问题，通过引入一种新算法，提高了在分散式多人选手竞争、无优先认知偏好和与偏好相关猜测等场景下博弈的结果鲁棒性。

Abstract

We study two-sided matching markets in which one side of the market (the players) does not have a priori knowledge about its preferences for the other side (the arms) and is required to learn its preferences from experience. Also, we assume the players have no direct means of communica

发现论文，激发创造

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009

分散式多人多臂搶錢機中的遺憾最小學習

该研究考虑了单人和多人多臂老虎机模型的学习问题，提出了两种可分散策略，即E³ (立方)和E³-TS，它们显示出预期遗憾增长的上限为O(log^(1+ε)T)，并解决了分散的在线学习所产生的附加成本问题。

May, 2015

匹配市场中的竞争赌徒

本研究提出了一种统计学习模型，用于解决双边市场中的稳定匹配问题，其中一方需从随机奖励中学习另一方的偏好，该模型扩展了标准的多臂赌博机框架，并研究了集中式和分散式方法，发现与单人多臂赌博机设置相比，具有令人惊讶的探索-利用权衡。

Jun, 2019

匹配市场中去中心化赌机的超过log^2(T)的遗憾

该研究设计了一种分散的算法模型，用于在双方匹配市场中实现遗憾最小化和一面策略反馈。

Mar, 2021

无遗憾学习匹配: 基于Markov匹配市场的强化学习

研究马尔可夫匹配市场，提出强化学习框架，结合最大权匹配算法解决序列探索、匹配稳定性和函数逼近等问题，并证明算法可达到次线性的遗憾率。

Mar, 2022

基于结构匹配市场的去中心化、无需通信和协调的学习

在双边撮合市场中，我们研究了竞争环境下在线学习的问题，如一方的代理人必须通过重复互动了解对另一方的企业的偏好，并与其他代理人竞争成功匹配。我们提出了一类分散、不需要协调的算法，代理人可以使用该算法在结构化匹配市场中达到稳定匹配，其决策仅基于代理人自己的游戏历史，不需要预先了解企业的偏好。研究表明，在代理人和企业的底层偏好具有现实结构假设的情况下，所提出的算法在时间范围内具有最多对数增加的后悔成本。在匹配市场的情况下，我们的结果表明，竞争不会极大地影响分散、不需要通信和协调的在线学习算法的性能。

Jun, 2022

匹配市场中玩家最优稳定遗憾的赌博学习

我们提供了一种名为explore-then-Gale-Shapley（ETGS）的新算法，并展示了每个参与者的最佳稳定后悔可以由O（KlogT/Δ^2）上界来限制，其中K是参与者的数量，T是时间，Δ是参与者在前N+1个排名的选择中的最小差距。

Jul, 2023

从强盗反馈中学习公平分配

通过使用双平均法，本研究解决了在不确定条件下学习在线公平分配的问题，其中中央规划者在不准确地了解代理方值或效用的情况下顺序分配物品。本研究提出了利用双平均法的包装算法，通过信息反馈逐步学习到到达物品的类型分布和代理方的值，从而实现了在线算法在具有加性效用的线性Fisher市场中渐进地达到最优的Nash社会福利。我们在Nash社会福利方面建立了遗憾界限，并通过合成和实证数据集实证验证了我们提出的算法的优越性能。

Nov, 2023

通过激励兼容性在多对一匹配市场中改进的赌博算法

在这篇论文中，我们介绍了适应性的探索-延迟接受算法（AETDA）用于回应性设置，并得到了一个玩家最优稳定遗憾的 O(Nmin{N,K}ClogT/Δ²)上界，同时证明了它的激励兼容性保证。我们还考虑了更广泛的可替代偏好，在此设置中设计了一种在线DA（ODA）算法，并为其建立了一个 O(NKlogT/Δ²)的玩家最差稳定遗憾界限。

Jan, 2024

分散学习对斯塔克尔贝格博弈中玩家效用的影响

探讨了两个学习代理（如推荐系统或聊天机器人）相互交流并独立学习的情况下，每个代理的目标和效用如何受到影响，并提出了一种宽容于小学习误差的放松后的后悔基准，以及相应的学习算法，实现了接近最优水平的后悔率。

Feb, 2024