Dec, 2010

具有马尔可夫奖励的组合多臂赌博机问题

TL;DR本文研究用多臂赌博机问题的方法,解决用户和资源之间的最佳匹配问题,采用马尔科夫链的状态演变,采用匹配学习算法实现。