implicit feedback (e.g., clicks, dwell times, etc.) is an abundant source of
data in human-interactive systems. While implicit feedback has many advantages
(e.g., it is inexpensive to collect, user centric, and t
本文提出了一种名为 DLA 的双重学习算法,该算法可以联合学习无偏好排名和无偏好倾向模型,以直接从有偏好的点击数据中学习无偏好排名模型,避免了对点击数据的特殊要求,实现了自适应学习和在线学习。实验结果表明,使用 DLA 训练的模型明显优于基于结果随机化和基于点击模型提取的相关信号的无偏好学习至排名算法。