本研究总结了多个领域的最新端到端基于 Transformer 模型的 X-former 模型,强调了计算和内存效率
Sep, 2020
比较研究了多种 Transformer 模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。
Feb, 2022
本文提出了一种新的自注意力机制 ——Linformer,该机制通过近似自注意力矩阵,将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n),从而显著提高了 Transformer 模型的内存和时间效率。
Jun, 2020
本文提出了 R-Transformer 模型,结合了 RNN 和多头注意力机制的优点,同时避免了它们各自的缺点,能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明,在大多数任务中,R-Transformer 优于最先进的方法。
Jul, 2019
提出了一种名为 RealFormer 的技术,可以创建残差注意力层的 Transformer 网络,并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练,而且还可以导致具有更少注意力的模型,并提供了预训练检查点。
Dec, 2020
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍,在掩蔽语言模型上提升了 4.8 倍。
通过使用线性核特征图将自注意力表示为线性点积,并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N),我们的线性变压器实现比循环神经网络快 4000 倍,但在自回归预测上达到了与基本变压器类似的性能。
深度学习中基于 Transformer 和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。
Feb, 2024
本研究开发出一种新型的线性变压器,通过检验自我关注中关键查询产品的特性,发现其在语音识别和语音摘要方面优于现有的方法。
Oct, 2022
本文提出了一种名为 Restoration Transformer 的有效 Transformers 模型,通过几个关键设计,使其能够捕捉长距离像素交互,同时仍适用于大图像,在图像去噪、去模糊和降雨方面达到了最先进的效果。
Nov, 2021