Oct, 2023

Epsilon 非贪婪:通过均匀数据进行无偏推荐的赌博机方法

TL;DR为了纠正推荐系统中的自反馈偏差,该研究提出了一个基于环境的多臂赌博机框架,使用少量均匀收集的数据来学习无偏估计器,并重点关注模型理解有限的项目,以生成改进的训练数据,有效解决了自反馈偏差问题。通过使用提出的训练方案进行广泛实验,证明了该模型优于现有的去偏方法。