拷贝还是不拷贝：神经序列推荐模型中的输出 Softmax 层是一个关键问题

WSDMOct, 2023

拷贝还是不拷贝：神经序列推荐模型中的输出 Softmax 层是一个关键问题

To Copy, or not to Copy; That is a Critical Issue of the Output Softmax Layer in Neural Sequential Recommenders

Haw-Shiuan Chang, Nikhil Agarwal, Andrew McCallum

TL;DR最近的研究表明，现有的神经模型在处理顺序推荐任务中的重复项目时存在困难。然而，我们对这个困难的理解仍然有限。通过识别问题的主要来源 —— 输出 softmax 层中的单一隐藏状态嵌入和静态项目嵌入的相似性结构，本研究在该领域取得了显著的进展。具体地说，当复制是更好的选择时，全局项目嵌入在 softmax 层中的相似性结构有时会导致单一隐藏状态嵌入接近新项目，而有时会不适当地导致隐藏状态接近输入中的项目。为了缓解这个问题，我们将最近提出的 softmax 替代方法（如 softmax-CPR）应用于顺序推荐任务，并证明了新的 softmax 架构释放了神经编码器在学习何时复制和何时排除输入序列中的项目方面的能力。通过仅对 SASRec 和 GRU4Rec 的输出 softmax 层进行一些简单的修改，softmax-CPR 在 12 个数据集中实现了持续的改进。与几乎相同的模型大小相比，我们的最佳方法不仅将 GRU4Rec 在有重复项目的 5 个数据集中的平均 NDCG@10 提高了 10%（个别情况下提高了 4%-17%），还将没有重复项目的 7 个数据集的结果提高了 24%（提高了 8%-39%）！

Abstract

Recent studies suggest that the existing neural models have difficulty handling repeated items in sequential recommendation tasks. However, our understanding of this difficulty is still limited. In this study, we

neural models sequential recommendation tasks hidden state embedding softmax layer softmax-cpr

发现论文，激发创造

序列推荐系统通用网络压缩框架

本文提出了一种压缩的序列推荐框架 CpRec，采用块状自适应分解和层间参数共享等技术来压缩神经网络，在真实世界的序列推荐数据集中表现出了较高的准确率和效率。

Apr, 2020

将复制机制纳入序列生成式学习中

本研究提出了一种名为 CopyNet 的神经网络模型，集成了新的复制机制，可选择性地将输入序列中的子序列放置在输出序列的适当位置，对于文本摘要等任务表现更佳。

Mar, 2016

利用时间衰减选择的顺序推荐的高效有效训练

本篇研究提出了一种基于最新性采样的序列推荐算法的训练方法，该方法尝试解决目前流行的序列推荐算法训练时间过长、无法充分利用数据的问题，并测试了多种现有的模型架构，结果表明该方法不仅能够有效地提高模型性能，而且训练时间大大减少。

Jul, 2022

顺序复制网络

本文提出了一种新的复制框架 SeqCopyNet，它不仅能够复制单个单词，还能够从输入句子中复制序列，实验证明 SeqCopyNet 在句子摘要和问题生成方面表现出色。

Jul, 2018

采用重新阅读和复制机制的高效摘要生成

本文提出了一种新的 encoder-decoder 模型来解决 NLP 中的 sequence to sequence prediction 任务，新模型考虑了整个输入序列并引入复制机制来有效处理小样本集和 OOV 问题。在 Gigaword 数据集和 DUC 竞赛中，该模型的性能超过了现有模型。

Nov, 2016

连续输出序列到序列模型的 von Mises-Fisher 损失训练

本研究提出了一种用连续嵌入层替代 Softmax 层的技术，使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度，在神经机器翻译任务上的表现也保持在业界领先水平。

Dec, 2018

再探类指针网络架构以有效改善下一个单词的分布，摘要真实性及其他方面

本研究发现传统的语言模型中的 Softmax 层有瓶颈，使用 Pointer Networks 可以更高效地预测下一个单词的概率分布，并提出了多种简化 Pointer Networks 的方法，实验表明在 GPT-2 中应用这些方法可以显著提升摘要生成性能。

May, 2023

一个简单的卷积生成网络用于下一个物品推荐

本文研究了基于会话的下一个项目推荐，发现现有的生成模型和网络结构无法很好地建模项序列中的长距离依赖关系，因此提出了一种简单而有效的生成模型，用于学习从短时至长时的项目依赖的高级表示。文中提出的模型的网络结构由一堆突出卷积层（可以有效地增加感受野而不依赖于池化操作）组成，并在推荐系统中采用残差块结构，以便更深的网络优化。该模型在下一个项目推荐任务中具有最先进的准确性，训练时间较短，尤其是在存在长序列用户反馈的情况下表现出色。

Aug, 2018

通过卷积序列嵌入进行个性化 Top-N 顺序推荐

本文介绍了一种卷积序列嵌入推荐模型（Caser），它使用卷积过滤器将一系列最近的物品嵌入到时间和潜在空间中的 “图像” 中，并学习局部特征作为连续模式，这种方法为捕获一般偏好和连续模式提供了统一和灵活的网络结构。实验显示，Caser 在各种常见评估指标上始终优于最先进的连续推荐方法。

Sep, 2018

基于会话的推荐的改进循环神经网络

本研究探讨使用循环神经网络 (RNNs) 进行基于会话的推荐任务，并提出了数据增强和考虑输入数据分布变化的方法，同时通过实验证明使用通用蒸馏和直接预测项目嵌入的新模型相对于传统模型在 RecSys Challenge 2015 数据集上分别在 Recall@20 和 Mean Reciprocal Rank@20 指标上改进了 12.8% 和 14.8%。

Jun, 2016