使用深度自注意力进行字符级语言建模

Aug, 2018

使用深度自注意力进行字符级语言建模

Character-Level Language Modeling with Deeper Self-Attention

Rami Al-Rfou, Dokook Choe, Noah Constant, Mandy Guo, Llion Jones

TL;DR本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Abstract

lstms and other rnn variants have shown strong performance on character-level language modeling. These models are typically trained using truncated backpropagation through time, and it is common to assume that th

lstms rnn transformer model long-term contexts auxiliary losses

发现论文，激发创造

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015

字符级 RNN 的备选结构

本文提出了两种替代性改进的循环神经网络模型，一种是以前一个单词表示为条件的字符级表示，另一种是利用字符历史来调整输出概率，该改进使得处理多语言实际数据更为有效。

Nov, 2015

多尺度下神经语言建模分析

本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展，提高了对大型语料库的处理能力，并在字符级（Penn Treebank，enwik8）和单词级（WikiText-103）数据集上分别取得了最新的最高水平结果，而且只用了一台现代 GPU，最快只需 12 小时（WikiText-103）或 2 天（enwik8）即可。

Mar, 2018

Character-Word LSTM 语言模型

使用长期短期记忆（LSTM）、字符信息和单词嵌入等技术，设计了一种基于字符的语言模型，有效提高了对单词的建模能力，优于传统基于单词的模型。

Apr, 2017

深度转换器语言建模

本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用，探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码，证明了深度 Transformer 语言模型可以自动利用序列中的位置信息，并能在语音识别模型中得到应用。

May, 2019

基于自注意力机制的字符级翻译

本文研究了自注意力模型在字符级神经机器翻译中的适用性，并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验，使用最多三种输入语言（法语，西班牙语和中文）进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer，并收敛更快，并学习更稳健的字符级别对齐。

Apr, 2020

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

基于字符的神经机器翻译：容量和压缩的再思考

本论文通过设计深度模型对字符级信息进行序列到序列建模，并且验证了该模型优于传统的基于单词片段的模型，从而为字符级神经机器翻译提供了参考。同时，通过评估多种字符级 NMT 技术，发现它们不能与深层字符基线模型的表现相匹配。最后，我们还在该框架内进行了针对 NMT 的条件计算时间的第一次评估。

Aug, 2018

Transformer 语言模型的动态评估

这篇研究使用 Transformers 和动态评估两种方法来提高语言建模，在多个数据集上的实验表明，使用动态评估提高了模型预测准确率。

Apr, 2019