SIGIRAug, 2023

面向交互推荐系统中的长期用户反馈验证

TL;DR通过重新访问基于回顾数据集的 IRS 实验,我们将 RL 模型与简单的奖励模型进行比较,发现简单贪婪的奖励模型在最大化累积奖励方面一直优于 RL 模型;而将长期奖励赋予更高权重会导致推荐性能下降;用户反馈对基准数据集仅有长期影响。因此,我们得出结论:数据集需要经过谨慎验证,并且在评估 RL-IRS 方法时应包含简单贪婪基线。