Dec, 2018

一种用于 REINFORCE 推荐系统的 Top-K 离线校正算法

TL;DR本文提出了一种方法,在工业推荐系统中使用基于策略梯度的REINFORCE算法来解决通过学习从之前版本的推荐中观察到的数据偏差,同时通过纠正离线反馈数据的偏差来消除REINFORCE在大规模action space中的数据偏差,同时提出一种针对推荐多个项目的新型top-K保真度校正方法,并通过模拟和多个实验表明了该方法的有效性。