一种针对序列推荐的专注归纳偏置,超越自注意力
本文提出了一种基于 Stochastic Self-Attention 的推荐模型,用于解决现有顺序方法无法处理不确定性和协同传递性的问题,并在五个真实世界基准数据集上进行了广泛实验,证明其在冷启动项目上的优越性。
Jan, 2022
该研究提出了一种基于变换器的关系感知内核自注意力机制(RKSA),它采用了变换器的自注意力机制,并加入了概率模型和潜空间,从而将变换器的自注意力与连续推荐相结合,实现了推荐上下文的建模与个性化推荐。
Nov, 2019
本文通过对自我注意模块归纳偏差的理论分析,发现有界 Transformer 网络能够创建稀疏变量,从而用单个注意力头表示输入序列的稀疏函数,样本复杂度仅以对数尺度增长;通过合成实验来支持我们的分析,探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。
Oct, 2021
用基于图滤波的自注意力机制 (GFSA) 在 Transformer 模型中解决了过度平滑问题,提高了在计算机视觉、自然语言处理、图形模式分类、语音识别和代码分类等各领域的性能。
Dec, 2023
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020
本研究通过提出对 Transformer 模型的自注意力机制进行改进,提出了 Adversarial Self-Attention(ASA)机制,旨在抑制模型对部分特征的依赖以及探索更广泛的语义,实现更好的泛化性能和鲁棒性。实验结果表明,在预训练和微调阶段中,使用 ASA 的模型相较于普通训练在长远步骤上获得了显著的性能提升,这些模型也能够在泛化性能和鲁棒性方面胜过普通模型。
Jun, 2022
本研究提出了一种新方法 NOVA,在 BERT 框架下利用辅助信息来提供更好的注意力分布,以便更全面和更好地推荐。在公共和商业数据集上验证,本文提出的方法能够稳定地胜过现有技术。
Mar, 2021
本研究通过提出一种基于自注意力机制的序列模型 (SASRec),实现捕获用户操作的长期语义信息并利用少量操作进行预测,从而在稀疏和密集数据集上优于具有代表性的顺序模型(包括基于 MC/CNN/RNN 的方法),并且比相似的 CNN/RNN 模型高效一个数量级。注意力权重的可视化也展示了该模型如何自适应处理不同密度的数据集并揭示出有意义的活动序列模式。
Aug, 2018
自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键,本研究提出了一种基于支持向量回归问题的自注意力构建方法,推导出常用的注意力层,并提出了两种新型注意力机制:1) 批正则注意力,2) 缩放头注意力,通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。
Jun, 2024
本研究提出一种名为 “SRformer” 的分段循环变压器模型,通过使用分段关注机制和循环关注机制结合来处理长度较长的序列,降低计算和内存成本,并应用于 T5 和 BART 转换器上进行摘要生成等任务,结果显示比分段变压器基线具有更高的性能表现。
May, 2023