基于字符识别的神经语言模型

AAAIAug, 2015

Character-Aware Neural Language Models

Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush

TL;DR本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Abstract

We describe a simple neural language model that relies only on character-level inputs. Predictions are still made at the word-level. Our model employs a →

neural language model character-level inputs convolutional neural network recurrent neural network word representations

发现论文，激发创造

Character-Word LSTM 语言模型

使用长期短期记忆（LSTM）、字符信息和单词嵌入等技术，设计了一种基于字符的语言模型，有效提高了对单词的建模能力，优于传统基于单词的模型。

Apr, 2017

门控字、词循环语言模型

本研究提出一种基于长短时记忆（LSTM）单元的循环神经网络语言模型（RNN-LM），有效地利用字符级和单词级输入，在预测英语文本中的下一个单词方面表现优异。

Jun, 2016

层次循环神经网络的字符级语言模型

我们通过提出分层 RNN 体系结构，提高了基于字符级语言模型的溢出词建模的性能。在 One Billion Word Benchmark 上，我们的 CLM 模型比 Kneser-Ney 5 元语言模型表现更好，同时参数却只有 2%。我们在 WSJ 语料库上展示了对话识别示例，并将传统的 RNN CLMs 替换为所提出的模型，即使参数数量减少了 30％，精度也有所提高。

Sep, 2016

使用字符感知神经网络进行词级别预测：它们是否发现语言规则？

本文研究字符级别模式识别神经网络所学习的规律以及相对于手动标注的词语分割的重叠性，并使用卷积神经网络和双向长短期记忆网络对三种不同的语言进行形态标记任务的评估和比较，证明这些模型可以隐式地发现可理解的语言规则。

Aug, 2018

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

利用字符 n-gram 嵌入来提高循环神经网络语言模型

本文提出一种基于循环神经网络的语言模型，并利用字符信息中的 n-gram 构建单词嵌入，结合常规单词嵌入。该模型在语言模型数据集上取得最佳困惑度，同时在机器翻译和标题生成等应用任务中也表现出较好的性能。

Jun, 2019

多尺度下神经语言建模分析

本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展，提高了对大型语料库的处理能力，并在字符级（Penn Treebank，enwik8）和单词级（WikiText-103）数据集上分别取得了最新的最高水平结果，而且只用了一台现代 GPU，最快只需 12 小时（WikiText-103）或 2 天（enwik8）即可。

Mar, 2018

字符级 RNN 的备选结构

本文提出了两种替代性改进的循环神经网络模型，一种是以前一个单词表示为条件的字符级表示，另一种是利用字符历史来调整输出概率，该改进使得处理多语言实际数据更为有效。

Nov, 2015

基于字符的神经元形态标注方法用于形态丰富语言

本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注，结合双向 LSTMs 建模跨单词上下文，发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响，通过增加深度优化神经网络可显著提高标注器准确度，最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。

Jun, 2016

基于卷积神经网络的字符构成模型用于形态丰富语言的依存句法分析

该研究提出了一种基于转移的依存句法分析器，使用卷积神经网络来从字符中组合单词表示。字符组合模型在解析结合语言方面表现出显著的改进，这些改进甚至比使用额外数据训练的预训练词嵌入模型更好。在 SPMRL 数据集上，与之前最好的贪心解析器相比，我们的系统平均提高了 3％的表现。

May, 2017