多尺度 Transformer 语言模型

May, 2020

Multi-scale Transformer Language Models

Sandeep Subramanian, Ronan Collobert, Marc'Aurelio Ranzato, Y-Lan Boureau

TL;DR本文研究了多尺度变压器语言模型，提出了三种不同的架构，并实验性地证明了多尺度表示在内存效率，计算时间和困惑度方面的优势，具有特殊的吸引力。

Abstract

We investigate multi-scale transformer language models that learn representations of text at multiple scales, and present three different architectures that have an inductive bias to handle the hierarchical nature of language. Experiments on large-scale language modeling benchmarks emp

multi-scale transformer language models text representations language hierarchy memory efficiency perplexity

发现论文，激发创造

多尺度变形器模型的序列生成学习

本文提出了一种基于不同语言单元（包括子词、单词和短语）之间的关系建立多尺度 Transformer 模型 ——Universal MultiScale Transformer（UMST），实验证明它在几个测试集上都可比存在的流行基准模型获得更好的性能表现，且不影响效率。

Jun, 2022

文本分类的多尺度自注意力

该研究通过在自我注意模块中引入先前知识 - 多尺度结构，提出了一种 Multi-Scale Transformer，其使用多尺度多头自我注意来捕捉来自不同尺度的特征，通过对 21 个数据集进行的实验结果表明，相对于标准 Transformer，在小型和中等型数据集上，该多尺度变压器始终具有显着性能优势。

Dec, 2019

分层 Transformer 是更高效的语言模型

通过建立分层结构的 Transformer 模型 Hourglass，让 Transformer 可以更加高效地处理长序列，在 ImageNet32 生成任务方面表现出新的最先进，同时提高了在广泛研究的 enwik8 基准上的语言建模效率。

Oct, 2021

变形金刚的诞生：记忆视角

本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡，发现这些模型相对较快地学习了全局信息，但对于上下文信息中的二元组的识别则较慢，同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制，同时研究了数据分布属性的作用。

Jun, 2023

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

重新审视分层多尺度 LSTM

本文通过对复杂深度学习架构的复制和单元分析，展示了对 Hierarchical Multiscale LSTM 语言模型在计算语言学研究方面应用的潜在限制。结论表明简化某些方面可以提高其性能，同时表明各级模型学习的语言单元质量与模型的性能没有相关性。

Jul, 2018

层级多尺度神经网络中的连续学习

本研究提出了一个层次化的多尺度语言模型，通过在线元学习方式，使用一个上层模型更新低层模型的权重来编码短时间尺度和长时间尺度的依赖关系，并使用弹性权重一致性作为高层次来防止灾难性遗忘。

May, 2018

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

分层多尺度循环神经网络

本文提出了一种多尺度递归神经网络，称为分层多尺度递归神经网络，通过使用新的更新机制，在不使用显式边界信息的情况下捕获序列中的潜在分层结构，从而解决递归神经网络中的层次和时间表示问题，并在字符级别语言建模和手写序列建模上进行评估。

Sep, 2016

面向多语言掩码语言建模的大规模 Transformer

本研究探讨了跨语言语言模型预训练的有效性，并且提出了两个参数分别为 3.5B 和 10.7B 的大型多语言掩码语言模型，这两个新模型分别称为 XLM-R XL 和 XLM-R XXL，在 XNLI 中的平均准确率比 XLM-R 高 1.8％和 2.4％，同时处理了 99 种以上的语言，优于 RoBERTa-Large 模型，表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能，同时极大地改善了低资源语言。

May, 2021