基于字符识别的神经语言模型
使用长期短期记忆(LSTM)、字符信息和单词嵌入等技术,设计了一种基于字符的语言模型,有效提高了对单词的建模能力,优于传统基于单词的模型。
Apr, 2017
我们通过提出分层 RNN 体系结构,提高了基于字符级语言模型的溢出词建模的性能。在 One Billion Word Benchmark 上,我们的 CLM 模型比 Kneser-Ney 5 元语言模型表现更好,同时参数却只有 2%。我们在 WSJ 语料库上展示了对话识别示例,并将传统的 RNN CLMs 替换为所提出的模型,即使参数数量减少了 30%,精度也有所提高。
Sep, 2016
本文研究字符级别模式识别神经网络所学习的规律以及相对于手动标注的词语分割的重叠性,并使用卷积神经网络和双向长短期记忆网络对三种不同的语言进行形态标记任务的评估和比较,证明这些模型可以隐式地发现可理解的语言规则。
Aug, 2018
本文通过实验证明,64 层深 (Deep) 的 transformer 模型,通过加入中间网络层和序列位置的辅助损失 (auxiliary losses),能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体,实现 1.13 和 1.06 的最小比特位 (bit per character)。
Aug, 2018
本文提出一种基于循环神经网络的语言模型,并利用字符信息中的 n-gram 构建单词嵌入,结合常规单词嵌入。该模型在语言模型数据集上取得最佳困惑度,同时在机器翻译和标题生成等应用任务中也表现出较好的性能。
Jun, 2019
本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展,提高了对大型语料库的处理能力,并在字符级(Penn Treebank,enwik8)和单词级(WikiText-103)数据集上分别取得了最新的最高水平结果,而且只用了一台现代 GPU,最快只需 12 小时(WikiText-103)或 2 天(enwik8)即可。
Mar, 2018
本文提出了两种替代性改进的循环神经网络模型,一种是以前一个单词表示为条件的字符级表示,另一种是利用字符历史来调整输出概率,该改进使得处理多语言实际数据更为有效。
Nov, 2015
本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注,结合双向 LSTMs 建模跨单词上下文,发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响,通过增加深度优化神经网络可显著提高标注器准确度,最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。
Jun, 2016
该研究提出了一种基于转移的依存句法分析器,使用卷积神经网络来从字符中组合单词表示。字符组合模型在解析结合语言方面表现出显著的改进,这些改进甚至比使用额外数据训练的预训练词嵌入模型更好。在 SPMRL 数据集上,与之前最好的贪心解析器相比,我们的系统平均提高了 3%的表现。
May, 2017