Aug, 2016

随机组合部分监督博弈中的相位探索与贪婪开采

TL;DR讨论了组合型部分监测游戏的算法框架及其实现,提出了基于置信度界限和探索利用两种算法,同时还探讨了如何将本算法应用于实际感兴趣的问题:在线排名与反馈。