无注意力预训练

Dec, 2022

Pretraining Without Attention

Junxiong Wang, Jing Nathan Yan, Albert Gu, Alexander M. Rush

TL;DR研究探索了基于状态空间模型的路由层和基于乘性门控机制的模型架构并结合使用对预训练准确性有很大的影响，提出的双向门控 SSM 模型可以在没有注意机制的情况下复现 BERT 的预训练结果，并可扩展到预训练 4096 个令牌。

Abstract

transformers have been essential to pretraining success in nlp. Other architectures have been used, but require attention layers to match

transformers nlp pretraining routing layers ssm

发现论文，激发创造

预训练注意力机制

通过引导模型关注输入的显著区域，或经过无监督预训练，可以提高循环神经网络在分类任务中的性能，同时可以提高注意力机制本身的效率。

Dec, 2017

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

基于 “洞穴填充” 的自注意力网络预训练

本研究提出了一种新的预训练双向 Transformer 模型的方法，通过解决一种词重建任务来提高语言理解问题的性能，实验表明，在 GLUE 和 NER 以及组分分析基准测试上获得了大幅度的性能提高，模型的各种因素对于有效的预训练起到了积极的贡献。

Mar, 2019

关于双向性在语言模型预训练中的作用

本文探讨了语言模型预训练的双向性作为不同方法的关键因素，并提出了一个新的框架，能够控制双向上下文和双向注意力等两种表现形式。研究表明，最佳配置因应用而异，但大规模双向模型的作用值得探究。

May, 2022

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

无需从头训练：公正比较长序列模型要求基于数据的先验知识

通过数据驱动的预训练，我们展示了随机初始化在评估不同体系结构的性能时会导致极度高估体系结构之间的差异，并且能够在多种体系结构之间实现差异的极小化，从而显著提高模型性能。

Oct, 2023

文本属性图上的纯 Transformer 预训练框架

图序列预训练框架 GSPT 利用统一的文本表示，在图领域中取得了显著的可转移性和实证成功。

Jun, 2024

用于新一代网络替代 Transformer 的状态空间模型：概述

在这篇论文中，我们首次全面回顾了 State Space Model（SSM）作为自注意力基础的 Transformer 模型的特性和优势，并提供了实验比较和分析。此外，我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用，并提出了未来研究的方向，希望能推动 SSM 在理论模型和应用方面的发展。

Apr, 2024

改进时间序列表示学习的双向生成预训练

通过时间序列数据的下一个令牌和上一个令牌的预测，BiTimelyGPT 在预训练任务中保留了时间序列的原始分布和数据形状，并展示了更具表现力的表示能力。使用生物信号数据，BiTimelyGPT 在预测神经功能、疾病诊断和生理迹象方面表现出优异性能。通过可视化注意力热图，我们观察到经过预训练的 BiTimelyGPT 能够从时间序列序列中识别出有区别性的片段，尤其是在任务微调之后。

Feb, 2024

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022