Character-Word LSTM 语言模型

Apr, 2017

Character-Word LSTM Language Models

Lyan Verwimp, Joris Pelemans, Hugo Van hamme, Patrick Wambacq

TL;DR使用长期短期记忆（LSTM）、字符信息和单词嵌入等技术，设计了一种基于字符的语言模型，有效提高了对单词的建模能力，优于传统基于单词的模型。

Abstract

We present a Character-Word long short-term memory language model which both reduces the perplexity with respect to a baseline word-level languag

long short-term memory language model character information word embeddings model parameters

发现论文，激发创造

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015

利用字符 n-gram 嵌入来提高循环神经网络语言模型

本文提出一种基于循环神经网络的语言模型，并利用字符信息中的 n-gram 构建单词嵌入，结合常规单词嵌入。该模型在语言模型数据集上取得最佳困惑度，同时在机器翻译和标题生成等应用任务中也表现出较好的性能。

Jun, 2019

门控字、词循环语言模型

本研究提出一种基于长短时记忆（LSTM）单元的循环神经网络语言模型（RNN-LM），有效地利用字符级和单词级输入，在预测英语文本中的下一个单词方面表现优异。

Jun, 2016

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

神经序列标注模型中字符关注

该论文研究了序列标注结构中使用单词嵌入进行相似性捕获时处理以前未见过或罕见单词时的问题，并提出了一种新颖的架构来组合替代单词表示。通过使用注意力机制，模型能够动态决定从单词或字符级组件中使用多少信息。我们在一系列序列标注数据集上评估了不同的架构，并发现字符级扩展在每个基准测试中都提高了性能。此外，即使使用较少的可训练参数，提出的基于注意力的架构也能够提供最佳结果。

Nov, 2016

层次循环神经网络的字符级语言模型

我们通过提出分层 RNN 体系结构，提高了基于字符级语言模型的溢出词建模的性能。在 One Billion Word Benchmark 上，我们的 CLM 模型比 Kneser-Ney 5 元语言模型表现更好，同时参数却只有 2%。我们在 WSJ 语料库上展示了对话识别示例，并将传统的 RNN CLMs 替换为所提出的模型，即使参数数量减少了 30％，精度也有所提高。

Sep, 2016

受内存限制的自动完成中，小字符模型能与大词模型匹配

本文研究的是低频用户提示模式或广泛提示的自动完成任务以及在受限内存下使用基于字符的语言模型降低整体模型大小的效果。研究证明，当控制模型大小时，字符模型的自动完成任务的精确匹配准确性与字模型相当。作者进一步尝试在字符模型中融入大型字模型的组成信息和表现转移的归纳偏差。

Oct, 2022

有效的基于字符增强的词嵌入在机器阅读理解中的应用

本文提出了一种字符增强的阅读器，结合字和字符嵌入的不同集成策略，用一份短列表来增强字嵌入，从而改善字的表示，特别是罕见的字。实验结果表明，这种方法显著优于各种公共基准测试中的当前最先进方法。

Aug, 2018

比较 CNN 和 LSTM 字符级嵌入在 BiLSTM-CRF 模型中用于化学和疾病命名实体识别

比较 LSTM 和 CNN 基于字符级别的词嵌入在 BiLSTM-CRF 模型中用于化学和疾病实体识别任务的效果。实验结果表明，使用任意一种字符级别嵌入方式都能使模型达到最先进的性能，但是基于 CNN 的字符级别嵌入模型具有计算性能优势，增加训练时间 25％，而基于 LSTM 的字符级别嵌入模型需要的训练时间则超过两倍。

Aug, 2018