基于 Transformer 的语言模型

Apr, 2019

Language Models with Transformers

Chenguang Wang, Mu Li, Alexander J. Smola

TL;DR本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文，提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构，其中 Coordinate Architecture Search（CAS）通过迭代模型的精炼来找到一个有效的架构，实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11，即比最先进的 LSTM 提高了 12.0 perplexity 单位。

Abstract

The transformer architecture is superior to RNN-based models in computational efficiency. Recently, GPT and BERT demonstrate the efficacy of Transformer models on various NLP tasks using pre-trained language models on large-scale corpora. Surprisingly, these Transformer architectures a

transformer architecture language model lstm layers cas perplexities

发现论文，激发创造

深度转换器语言建模

本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用，探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码，证明了深度 Transformer 语言模型可以自动利用序列中的位置信息，并能在语音识别模型中得到应用。

May, 2019

分层 Transformer 是更高效的语言模型

通过建立分层结构的 Transformer 模型 Hourglass，让 Transformer 可以更加高效地处理长序列，在 ImageNet32 生成任务方面表现出新的最先进，同时提高了在广泛研究的 enwik8 基准上的语言建模效率。

Oct, 2021

Transformer-XL: 超越固定长度上下文的关注式语言模型

提出了一种名为 Transformer-XL 的神经架构，它能够在语言模型的设定中超越固定长度的依赖关系，并且不会破坏时间上的一致性。通过分段级别的循环机制和一种新颖的位置编码方案，Transformer-XL 不仅能够捕捉更长期的依赖关系，而且还解决了上下文破碎问题。在评估期间，它的速度比普通的 Transformers 要快 1,800 多倍，并且在短序列和长序列上表现更好。实验结果显示，在多个语料库上，Transformer-XL 都比目前的最先进结果表现要好。

Jan, 2019

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

LiteTransformerSearch: 用于高效语言模型的无需训练的神经结构搜索

本文提出了一种名为 “轻量 Transformer 搜索（LTS）” 的新型网络自动设计算法，利用解码器参数作为感性代理，不需要任何模型训练，直接在目标设备上运行，方便快捷地制定任务性能与硬件成本间的 Pareto 前沿方案，应用到自回归语言模型中可获得高的准确率，同时摆脱了数百个 GPU 小时训练的碳足迹。

Mar, 2022

大型语言模型的概念与实施调查

基于 Transformer 架构的大型语言模型（LLMs）的近期进展在自然语言处理（NLP）应用领域展示了显著的拓宽范围，超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用，重点关注 GPT 系列，对人工智能（AI）驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究，同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展，Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究，突出了其多功能性和在实际应用领域中转型的潜力，从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。

Mar, 2024

在长上下文大语言模型中推进 Transformer 架构的综合调查

该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023