Jan, 2024
通过激励兼容性在多对一匹配市场中改进的赌博算法
Improved Bandits in Many-to-one Matching Markets with Incentive
Compatibility
TL;DR在这篇论文中,我们介绍了适应性的探索-延迟接受算法(AETDA)用于回应性设置,并得到了一个玩家最优稳定遗憾的 O(Nmin{N,K}ClogT/Δ²)上界,同时证明了它的激励兼容性保证。我们还考虑了更广泛的可替代偏好,在此设置中设计了一种在线DA(ODA)算法,并为其建立了一个 O(NKlogT/Δ²)的玩家最差稳定遗憾界限。