Mar, 2022

无遗憾学习匹配: 基于Markov匹配市场的强化学习

TL;DR研究马尔可夫匹配市场,提出强化学习框架,结合最大权匹配算法解决序列探索、匹配稳定性和函数逼近等问题,并证明算法可达到次线性的遗憾率。