Jul, 2023

匹配市场中玩家最优稳定遗憾的赌博学习

TL;DR我们提供了一种名为explore-then-Gale-Shapley(ETGS)的新算法,并展示了每个参与者的最佳稳定后悔可以由O(KlogT/Δ^2)上界来限制,其中K是参与者的数量,T是时间,Δ是参与者在前N+1个排名的选择中的最小差距。