带有动态 Token 池化的高效 Transformer

Nov, 2022

带有动态 Token 池化的高效 Transformer

Efficient Transformers with Dynamic Token Pooling

Piotr Nawrot, Jan Chorowski, Adrian Łańcucki, Edoardo M. Ponti

TL;DR通过动态 Pooling 和自回归机制，使得 Transformer 模型在其计算资源内的表现更快更准确。

Abstract

transformers achieve unrivalled performance in modelling language, but remain inefficient in terms of memory and time complexity. A possible remedy is to reduce the sequence length in the intermediate layers by pooling fixed-length segments of tokens. Nevertheless, natural units of mea

transformers dynamic-pooling autoregressive segment boundaries language models

发现论文，激发创造

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

Transformer 语言模型的动态评估

这篇研究使用 Transformers 和动态评估两种方法来提高语言建模，在多个数据集上的实验表明，使用动态评估提高了模型预测准确率。

Apr, 2019

PoNet: 长序列中高效的令牌混合池化网络

本文提出了一种新的 Pooling Network (PoNet)，它使用线性复杂度的 token mixing 处理长序列，通过多粒度池化和池化融合来捕获不同级别的上下文信息，并结合 tokens 进行交互来提高模型性能。在长范围竞技基准测试中，PoNet 显著优于 Transformer，同时实现与最快模型 FNet 相当的准确性，在 GPU 上度量所有序列长度时仅比最快模型慢一点。同时文章也进行了系统的研究，证明了 PoNet 设计的多粒度池化和池化融合的加强长序列的 token 混合以及设计的预训练任务可用于学习可转移的上下文化语言表示的有效性。

Oct, 2021

视觉 Transformer 中的 Token 池化

该研究提出了一种称作 Token Pooling 的新型令牌下采样方法，旨在提高对视觉变换的计算速度，并通过对 softmax 注意力机制的研究，实现了更好的计算速度与精度之间的平衡。

Oct, 2021

Subword 池化有所不同

探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响，并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。

Feb, 2021

分层 Transformer 是更高效的语言模型

通过建立分层结构的 Transformer 模型 Hourglass，让 Transformer 可以更加高效地处理长序列，在 ImageNet32 生成任务方面表现出新的最先进，同时提高了在广泛研究的 enwik8 基准上的语言建模效率。

Oct, 2021

有效的 Transformer 是否真的节省计算量？

我们研究了基于 Transformer 的语言模型，特别关注了 Sparse Transformer 和 Linear Transformer 的推理能力，并发现它们对一类动态规划问题更加有效。

Feb, 2024

Levenshtein Transformer

本文提出了一种部分自回归模型 Levenshtein Transformer，在线性时间复杂度内支持插入和删除操作，实现了互补的拆解和精细化的设计思路，成功地提高了机器翻译和文本自动编辑的效率。

May, 2019

具有动态停止的循环变压器

本文研究了两种主要方法在增强 Transformer 与循环机制方面的归纳倾向性，其中一种是类似于通用 Transformer 的逐层循环方法，另一种是类似于时态潜变块的分块时间循环方法。此外，我们提出并研究了扩展和组合上述方法的新方式，例如，我们为通用 Transformer 提出了一种基于全局均值的动态停止机制，并将时态潜变块与通用 Transformer 的要素进行了增强。我们通过一些诊断性任务（如长距离竞技场，翻转语言建模，列表操作和逻辑推理）比较了这些模型，并探讨了它们的归纳倾向性。

Feb, 2024

理解和减轻语言模型中的分词偏差

通过提出一种新颖的算法，我们可以从单词化数据中得到无偏估计，而不需要调整模型。通过 Markov 链设置，我们从标记化语言模型中精准恢复了转换概率。

Jun, 2024