Jul, 2020

使用顺序奖励交互的对比评估编号推荐

TL;DR该研究提出了一种图形假设的因果关系方法,以重新加权日志策略中的奖励,从而近似于目标策略下的奖励和,以解决串行互动推荐问题。在模拟和实际推荐系统中进行的广泛实验表明,该方法在偏差和数据效率方面优于现有方法。