通过引导模型关注输入的显著区域,或经过无监督预训练,可以提高循环神经网络在分类任务中的性能,同时可以提高注意力机制本身的效率。
Dec, 2017
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020
本研究提出了一种新的预训练双向 Transformer 模型的方法,通过解决一种词重建任务来提高语言理解问题的性能,实验表明,在 GLUE 和 NER 以及组分分析基准测试上获得了大幅度的性能提高,模型的各种因素对于有效的预训练起到了积极的贡献。
Mar, 2019
本文探讨了语言模型预训练的双向性作为不同方法的关键因素,并提出了一个新的框架,能够控制双向上下文和双向注意力等两种表现形式。研究表明,最佳配置因应用而异,但大规模双向模型的作用值得探究。
May, 2022
本研究提出了一种基于图循环网络的语言模型预训练方法,其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer,用于自监督学习的时候有较高的潜力。
Sep, 2022
通过数据驱动的预训练,我们展示了随机初始化在评估不同体系结构的性能时会导致极度高估体系结构之间的差异,并且能够在多种体系结构之间实现差异的极小化,从而显著提高模型性能。
Oct, 2023
图序列预训练框架 GSPT 利用统一的文本表示,在图领域中取得了显著的可转移性和实证成功。
Jun, 2024
在这篇论文中,我们首次全面回顾了 State Space Model(SSM)作为自注意力基础的 Transformer 模型的特性和优势,并提供了实验比较和分析。此外,我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用,并提出了未来研究的方向,希望能推动 SSM 在理论模型和应用方面的发展。
Apr, 2024
通过时间序列数据的下一个令牌和上一个令牌的预测,BiTimelyGPT 在预训练任务中保留了时间序列的原始分布和数据形状,并展示了更具表现力的表示能力。使用生物信号数据,BiTimelyGPT 在预测神经功能、疾病诊断和生理迹象方面表现出优异性能。通过可视化注意力热图,我们观察到经过预训练的 BiTimelyGPT 能够从时间序列序列中识别出有区别性的片段,尤其是在任务微调之后。
Feb, 2024
本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成,从而避免使用预先训练的参数较多的大型模型。
Jun, 2022