面向百万级依赖建模的长序列模型的统一视图

Feb, 2023

面向百万级依赖建模的长序列模型的统一视图

A Unified View of Long-Sequence Models towards Modeling Million-Scale Dependencies

Hongyu Hè, Marko Kabic

TL;DR本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Abstract

Ever since their conception, transformers have taken over traditional sequence models in many tasks, such as NLP, image classification, and video/audio processing, for their fast training and superior performance. Much of the merit is attributable to positional encoding and

transformers long-sequence modeling multi-head attention sparse models million-scale dependencies

发现论文，激发创造

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

LongNet: 将 Transformer 扩展到 10 亿个标记

LongNet 是 Transformer 的一种变体，引入了扩张注意力（dilated attention）来扩展序列长度，使其能够处理超过 10 亿个标记的序列，同时不会牺牲短序列的性能表现。

Jul, 2023

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

关于循环模型在长序列中的复兴：变形器时代的调研和研究机会

深度学习中基于 Transformer 和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。

Feb, 2024

使用分层学习生成长源序列

本研究设计并研究了一种新的分层注意力 Transformer 架构（HAT），在几个序列到序列任务中优于标准 Transformer，包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线，并通过可视化分层编解码器注意力来研究了分层层次的理解，最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。

Apr, 2021

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

随机位置编码增强 Transformer 的长度泛化

本研究发现，Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是，它们不能在任意长度序列上泛化，即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案，可以解决长序列位置编码失效的问题，并通过大规模实验，证明该方案可提高分类精度。

May, 2023

百万长度视频和语言的环形注意力世界模型

当前语言模型在理解不易用文字描述的世界方面存在不足，并且在处理复杂和长期任务时存在困难。该论文通过利用视频序列的时间信息和语言的静态图像之间的联合建模，在人类文本知识和物理世界方面形成了深入的理解，从而实现了更广泛的人工智能能力。

Feb, 2024