ICMLMay, 2019

受托机构强盗

TL;DR本文介绍了一种新的推荐系统模型,其面临探索 - 开发折衷,并可以被建模为多臂老虎机设置,由于用户具有自利性质,因此不能被强制性遵循推荐,作者提出了一种算法以探索为基础,同时考虑到代理人的利益,是一个渐进最优、刺激兼容、先验个体理性的推荐算法。