Aug, 2016

推荐系统的部分可观测马尔科夫决策过程

TL;DR本研究提出了一种名为 POMDP-Rec 的部分可观察马尔可夫决策过程算法,针对在线推荐系统中存在的 “Recurrent Deterioration” 现象,解决了缺乏负面训练数据和用户兴趣演化等问题,通过优化神经网络,利用历史数据,取得了和基于公共数据集进行详尽微调的模型相当的推荐效果。