MMMar, 2024

用强化学习将 GPTRec 与超出精确性目标对齐

TL;DRTransformer 模型在推荐系统的顺序推荐任务中应用广泛,BERT4Rec、SASRec 等模型通过使用 Top-K 策略,在准确度等度量指标上取得了最先进的性能。然而,GPTRec 作为替代 Top-K 模型的一个新方法,可以考虑复杂的物品间相互依赖关系,从而适应更多样化的度量指标。本研究提出了一个二阶段的训练方法,通过强化学习来对 GPTRec 进行训练,从而解决了推荐系统训练数据与度量指标之间的不匹配问题。在两个数据集上的实验证明,GPTRec 的 Next-K 生成方法在准确度和次要度量指标之间可以达到更好的权衡。