去中心化匹配市场中的强盗学习
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009
该研究考虑了单人和多人多臂老虎机模型的学习问题,提出了两种可分散策略,即E³ (立方)和E³-TS,它们显示出预期遗憾增长的上限为O(log^(1+ε)T),并解决了分散的在线学习所产生的附加成本问题。
May, 2015
本研究提出了一种统计学习模型,用于解决双边市场中的稳定匹配问题,其中一方需从随机奖励中学习另一方的偏好,该模型扩展了标准的多臂赌博机框架,并研究了集中式和分散式方法,发现与单人多臂赌博机设置相比,具有令人惊讶的探索-利用权衡。
Jun, 2019
研究马尔可夫匹配市场,提出强化学习框架,结合最大权匹配算法解决序列探索、匹配稳定性和函数逼近等问题,并证明算法可达到次线性的遗憾率。
Mar, 2022
在双边撮合市场中,我们研究了竞争环境下在线学习的问题,如一方的代理人必须通过重复互动了解对另一方的企业的偏好,并与其他代理人竞争成功匹配。我们提出了一类分散、不需要协调的算法,代理人可以使用该算法在结构化匹配市场中达到稳定匹配,其决策仅基于代理人自己的游戏历史,不需要预先了解企业的偏好。研究表明,在代理人和企业的底层偏好具有现实结构假设的情况下,所提出的算法在时间范围内具有最多对数增加的后悔成本。在匹配市场的情况下,我们的结果表明,竞争不会极大地影响分散、不需要通信和协调的在线学习算法的性能。
Jun, 2022
我们提供了一种名为explore-then-Gale-Shapley(ETGS)的新算法,并展示了每个参与者的最佳稳定后悔可以由O(KlogT/Δ^2)上界来限制,其中K是参与者的数量,T是时间,Δ是参与者在前N+1个排名的选择中的最小差距。
Jul, 2023
通过使用双平均法,本研究解决了在不确定条件下学习在线公平分配的问题,其中中央规划者在不准确地了解代理方值或效用的情况下顺序分配物品。本研究提出了利用双平均法的包装算法,通过信息反馈逐步学习到到达物品的类型分布和代理方的值,从而实现了在线算法在具有加性效用的线性Fisher市场中渐进地达到最优的Nash社会福利。我们在Nash社会福利方面建立了遗憾界限,并通过合成和实证数据集实证验证了我们提出的算法的优越性能。
Nov, 2023
在这篇论文中,我们介绍了适应性的探索-延迟接受算法(AETDA)用于回应性设置,并得到了一个玩家最优稳定遗憾的 O(Nmin{N,K}ClogT/Δ²)上界,同时证明了它的激励兼容性保证。我们还考虑了更广泛的可替代偏好,在此设置中设计了一种在线DA(ODA)算法,并为其建立了一个 O(NKlogT/Δ²)的玩家最差稳定遗憾界限。
Jan, 2024
探讨了两个学习代理(如推荐系统或聊天机器人)相互交流并独立学习的情况下,每个代理的目标和效用如何受到影响,并提出了一种宽容于小学习误差的放松后的后悔基准,以及相应的学习算法,实现了接近最优水平的后悔率。
Feb, 2024