Transformer 语言模型的动态评估

Apr, 2019

Dynamic Evaluation of Transformer Language Models

Ben Krause, Emmanuel Kahembwe, Iain Murray, Steve Renals

TL;DR这篇研究使用 Transformers 和动态评估两种方法来提高语言建模，在多个数据集上的实验表明，使用动态评估提高了模型预测准确率。

Abstract

This research note combines two methods that have recently improved the state of the art in language modeling: transformers and dynamic evaluatio

language modeling transformers dynamic evaluation sequential data state of the art

发现论文，激发创造

神经序列模型的动态评估

通过梯度下降机制使神经序列模型适应最近的历史，从而提高模型的性能和有效性，在多个数据集上表现出了优于现有模型适应方法的结果。

Sep, 2017

Transformer-XL: 超越固定长度上下文的关注式语言模型

提出了一种名为 Transformer-XL 的神经架构，它能够在语言模型的设定中超越固定长度的依赖关系，并且不会破坏时间上的一致性。通过分段级别的循环机制和一种新颖的位置编码方案，Transformer-XL 不仅能够捕捉更长期的依赖关系，而且还解决了上下文破碎问题。在评估期间，它的速度比普通的 Transformers 要快 1,800 多倍，并且在短序列和长序列上表现更好。实验结果显示，在多个语料库上，Transformer-XL 都比目前的最先进结果表现要好。

Jan, 2019

使用 Transformer 关注数学语言

使用变压器架构生成、评估和训练数学表达式，将其作为字符级序列转换任务进行分析，建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上，最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。

Dec, 2018

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

Mind the Gap: 评估神经语言模型的时间泛化能力

研究表明，Transformer-XL 语言模型在预测超出其训练期的未来话语时，性能会随着时间的推移而逐渐降低。基于此，提出了动态语言建模的思路，并通过不断更新知识来缓解性能退化问题。因此，应重新思考我们目前培训和评估语言模型的方法，并发展出适应我们日益变化和非稳定的世界的自适应语言模型。

Feb, 2021

贝叶斯 Transformer 语言模型在语音识别中的应用

使用贝叶斯学习框架和变分推断优化，提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。

Feb, 2021

语言模型效率研究的定量综述

本文对一系列高效 Transformer 和状态空间模型进行了元分析，系统地回顾了语言模型效率研究的现状，并对未来研究提出了建议。

May, 2023

基于 Transformer 的语言模型

本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文，提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构，其中 Coordinate Architecture Search（CAS）通过迭代模型的精炼来找到一个有效的架构，实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11，即比最先进的 LSTM 提高了 12.0 perplexity 单位。

Apr, 2019

带有动态 Token 池化的高效 Transformer

通过动态 Pooling 和自回归机制，使得 Transformer 模型在其计算资源内的表现更快更准确。

Nov, 2022

深度转换器语言建模

本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用，探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码，证明了深度 Transformer 语言模型可以自动利用序列中的位置信息，并能在语音识别模型中得到应用。

May, 2019