将废料转化为黄金亏损：BERT4Rec 真的比 SASRec 更好吗？

Sep, 2023

将废料转化为黄金亏损：BERT4Rec 真的比 SASRec 更好吗？

Turning Dross Into Gold Loss: is BERT4Rec really better than SASRec?

Anton Klenitskiy, Alexey Vasilev

TL;DR我们的研究表明，如果采用和 BERT4Rec 相同的损失函数来训练两个模型，SASRec 在质量和训练速度方面都明显优于 BERT4Rec。此外，我们还展示了使用负采样可以有效地训练 SASRec，并且仍然优于 BERT4Rec，但负样本的数量应该远大于一个。

Abstract

Recently sequential recommendations and next-item prediction task has become increasingly popular in the field of recommender systems. Currently, two state-of-the-art baselines are →

sequential recommendations next-item prediction transformer-based models sasrec bert4rec

发现论文，激发创造

BERT4Rec 序列推荐的系统性综述和可重复性研究

通过分析 BERT4Rec 在不同实现情况下的表现，本文得出结论：BERT4Rec 在足够长时间的训练后，的确展现出顺序推荐的最新效果，但不同研究中对其效果的确认并不一致。我们提出了自己的 BERT4Rec 实现，并证明它可以在比原论文更短的时间内收敛至相同的表现，此外，我们还展示了该模型可以受益于采用其他的 Transformer 架构。

Jul, 2022

gSASRec：用负采样训练的序列推荐系统中减少过度自信的方法

本文研究了推荐模型中的目录规模、负采样、过度自信等问题，并提出了 gBCE 损失函数和 gSASRec 模型，通过实验证明 gSASRec 在大规模数据集中表现优异，与 BERT4Rec 相比能够在更短的训练时间内获得更好的推荐效果。

Aug, 2023

BERT4Rec: 使用 Transformer 的双向编码器表示进行序列推荐

利用双向编码表示从历史行为中建模用户的动态演变偏好对于推荐系统至关重要，我们通过使用 Cloze 任务对历史序列项进行联合编码来解决这个问题，并在四个基准数据集上展开广泛实验，结果显示我们的模型在各种顺序模型中表现出色。

Apr, 2019

用强化学习将 GPTRec 与超出精确性目标对齐

Transformer 模型在推荐系统的顺序推荐任务中应用广泛，BERT4Rec、SASRec 等模型通过使用 Top-K 策略，在准确度等度量指标上取得了最先进的性能。然而，GPTRec 作为替代 Top-K 模型的一个新方法，可以考虑复杂的物品间相互依赖关系，从而适应更多样化的度量指标。本研究提出了一个二阶段的训练方法，通过强化学习来对 GPTRec 进行训练，从而解决了推荐系统训练数据与度量指标之间的不匹配问题。在两个数据集上的实验证明，GPTRec 的 Next-K 生成方法在准确度和次要度量指标之间可以达到更好的权衡。

Mar, 2024

利用时间衰减选择的顺序推荐的高效有效训练

本篇研究提出了一种基于最新性采样的序列推荐算法的训练方法，该方法尝试解决目前流行的序列推荐算法训练时间过长、无法充分利用数据的问题，并测试了多种现有的模型架构，结果表明该方法不仅能够有效地提高模型性能，而且训练时间大大减少。

Jul, 2022

使用优化的负采样和损失函数对基于会话的 Transformer 推荐进行扩展

TRON 是一个可扩展的基于会话的 Transformer 推荐系统，使用了优化的负采样。通过整合前沿模型如 SASRec 和 GRU4Rec + 的 top-k 负采样和列表损失函数，TRON 在保持与 SASRec 相似的训练速度的同时，提高了推荐准确性。在相关大规模电子商务数据集的评估中，TRON 提升了当前方法的推荐质量。实时的 A/B 测试显示与 SASRec 相比点击率提高了 18.14%，突显了 TRON 在实际环境中的潜力。我们还提供了源代码和匿名数据集，供进一步研究使用。

Jul, 2023

双向 Transformer 再排名用于语法错误纠正

通过采用 BERT 风格的自注意机制，我们提出了一种双向 Transformer 选手 (BTR)，可以找出由预训练 seq2seq 模型产生的候选句子中概率偏差的问题。与 T5-base 相比，BTR 在 CoNLL-14 和 BEA 测试集上可分别产生 65.47 和 71.27 F0.5 分数，在 JFLEG 语料库上可产生 59.52 GLEU 分数，优于 T5-base。

May, 2023

使用累计交叉熵损失的序列推荐有效高效训练

本文提出了一种基于序列的 Cumulative Cross-Entropy (CCE) 损失函数，在不使用负采样的情况下有效地训练了三种最先进的推荐模型，针对序列推荐系统中存在的缺陷，重点解决了序列信息利用率低的问题，并在五个基准数据集上进行了广泛的实验。

Jan, 2023

通过反向预训练变压器增强顺序推荐的伪先前项目

本研究提出了一个新的框架 ASReP，其目的是增强短序列数据的特征，避免 transformer-based models 在冷启动问题上性能不佳。通过预训练将 transformer 引导生成历史虚拟数据，并在时间顺序上微调 transformer。实验证明 ASReP 的应用有效性。

May, 2021

RecoBERT：用于基于文本推荐的目录语言模型

本研究提出了 RecoBERT，一种基于 BERT 的方法，用于学习目录专用的语言模型以实现基于文本的商品推荐，并通过独创的训练和推理过程，在不需要商品相似性标签的情况下评分，以更准确地推断商品之间的文本相似性，并将其应用到葡萄酒和时尚商品推荐任务中。

Sep, 2020