带有动态 Token 池化的高效 Transformer
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
本文提出了一种新的 Pooling Network (PoNet),它使用线性复杂度的 token mixing 处理长序列,通过多粒度池化和池化融合来捕获不同级别的上下文信息,并结合 tokens 进行交互来提高模型性能。在长范围竞技基准测试中,PoNet 显著优于 Transformer,同时实现与最快模型 FNet 相当的准确性,在 GPU 上度量所有序列长度时仅比最快模型慢一点。同时文章也进行了系统的研究,证明了 PoNet 设计的多粒度池化和池化融合的加强长序列的 token 混合以及设计的预训练任务可用于学习可转移的上下文化语言表示的有效性。
Oct, 2021
该研究提出了一种称作 Token Pooling 的新型令牌下采样方法,旨在提高对视觉变换的计算速度,并通过对 softmax 注意力机制的研究,实现了更好的计算速度与精度之间的平衡。
Oct, 2021
探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响,并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。
Feb, 2021
通过建立分层结构的 Transformer 模型 Hourglass,让 Transformer 可以更加高效地处理长序列,在 ImageNet32 生成任务方面表现出新的最先进,同时提高了在广泛研究的 enwik8 基准上的语言建模效率。
Oct, 2021
我们研究了基于 Transformer 的语言模型,特别关注了 Sparse Transformer 和 Linear Transformer 的推理能力,并发现它们对一类动态规划问题更加有效。
Feb, 2024
本文提出了一种部分自回归模型 Levenshtein Transformer,在线性时间复杂度内支持插入和删除操作,实现了互补的拆解和精细化的设计思路,成功地提高了机器翻译和文本自动编辑的效率。
May, 2019
本文研究了两种主要方法在增强 Transformer 与循环机制方面的归纳倾向性,其中一种是类似于通用 Transformer 的逐层循环方法,另一种是类似于时态潜变块的分块时间循环方法。此外,我们提出并研究了扩展和组合上述方法的新方式,例如,我们为通用 Transformer 提出了一种基于全局均值的动态停止机制,并将时态潜变块与通用 Transformer 的要素进行了增强。我们通过一些诊断性任务(如长距离竞技场,翻转语言建模,列表操作和逻辑推理)比较了这些模型,并探讨了它们的归纳倾向性。
Feb, 2024