关于 Transformer 模型的长程能力
比较研究了多种 Transformer 模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。
Feb, 2022
本论文提出了一个系统和统一的基准测试,名为 LRA,专门评估长上下文下的模型质量,其中系统地评估了十个成熟的长范围 Transformer 模型,为更好地理解高效 Transformer 模型铺平了道路,并提出了新的具有挑战性的任务。
Nov, 2020
通过一系列干预措施,研究表明使用更少的长时记忆和限制网络低层的注意力范围,可以实现与 Transformer-XL 相当的性能,并且可以获得更好的性能。
Jul, 2020
本文提供了一种高效的移动 NLP 架构 —— Lite Transformer,它通过使用 Long-Short Range Attention 来进行本地上下文建模与长距离关系建模的特化,从而在机器翻译、摘要生成和语言建模三个方面均优于 vanilla transformer,并且在受到硬件资源限制的条件下,Lite Transformer 在 WMT'14 英法任务上均优于 Transformer。此外,对该模型进行修剪与量化等操作可以将模型体积进一步压缩 18.2 倍,而在 500M MACs 的计算量下,Lite Transformer 的困惑度比 Transformer 低 1.8。
Apr, 2020
该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型,发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力(例如可以从远处文本中复制的 Token),对于句子级别的预测任务没有任何帮助;并且长范围上下文对文学小说的帮助最大。
Sep, 2021
提出了一种名为 MASFormer 的变种 Transformer 模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能,同时显著降低计算成本(多达 75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
通过引入循环替代方案以解决 transformer 自注意机制中的两个局限,本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法,在强化学习问题中实现了性能的提升。
Oct, 2023
本研究提出了 BLRP(双向长距离解析器),这是一种新颖且多功能的注意机制,旨在增强长序列任务的性能和效率,并通过在视觉和语言领域展示了竞争性结果来展示我们方法的优点和多功能性。
Apr, 2024
在自然语言处理领域得到了突破性的成功后,本文提出一种修改后的” 转换器” 架构,即门控 Transformer-XL (GTrXL),在部分可观察的强化学习 RL 领域中实现了与竞争性 LSTM 基线相媲美的稳定性和性能,超过了 LSTM 并在多任务 DMLab-30 基准套件上取得了最新的成果。
Oct, 2019
本研究开发出一种新型的线性变压器,通过检验自我关注中关键查询产品的特性,发现其在语音识别和语音摘要方面优于现有的方法。
Oct, 2022