Feb, 2018

上下文推荐的政策梯度

TL;DR本研究提出了基于策略梯度的上下文推荐模型(PGCR),通过利用时间相关贪心和Actor-Dropout两种启发式技术解决了现实环境下上下文问题的应用,包括个性化广告等。实验验证了PGCR能够快速收敛,低遗憾,并优于经典上下文贝叶斯和原始策略梯度方法。