无遗憾学习匹配: 基于Markov匹配市场的强化学习

Mar, 2022

无遗憾学习匹配: 基于Markov匹配市场的强化学习

Learn to Match with No Regret: Reinforcement Learning in Markov Matching Markets

Yifei Min, Tianhao Wang, Ruitu Xu, Zhaoran Wang, Michael I. Jordan...

TL;DR研究马尔可夫匹配市场，提出强化学习框架，结合最大权匹配算法解决序列探索、匹配稳定性和函数逼近等问题，并证明算法可达到次线性的遗憾率。

Abstract

We study a markov matching market involving a planner and a set of strategic agents on the two sides of the market. At each step, the agents are presented with a →