Jun, 2019

匹配市场中的竞争赌徒

TL;DR本研究提出了一种统计学习模型,用于解决双边市场中的稳定匹配问题,其中一方需从随机奖励中学习另一方的偏好,该模型扩展了标准的多臂赌博机框架,并研究了集中式和分散式方法,发现与单人多臂赌博机设置相比,具有令人惊讶的探索-利用权衡。