BriefGPT.xyz
Ask
alpha
关键词
exploration-exploitation tradeoffs
搜索结果 - 2
ICML
受托机构强盗
本文介绍了一种新的推荐系统模型,其面临探索 - 开发折衷,并可以被建模为多臂老虎机设置,由于用户具有自利性质,因此不能被强制性遵循推荐,作者提出了一种算法以探索为基础,同时考虑到代理人的利益,是一个渐进最优、刺激兼容、先验个体理性的推荐算法
→
PDF
5 years ago
带背包的赌博机
介绍了一种称为带背包的赌徒问题的通用模型,结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题,它们的报酬接近于信息论上的最优解,但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。
PDF
11 years ago
Prev
Next