Character-Word LSTM 语言模型
本研究描述了一种仅依赖字符级输入的简单神经语言模型,该模型利用卷积神经网络和字符级公路网络作为输入,并将结果给予一种长短时记忆递归神经网络语言模型作为输出,该模型可以用较少的参数占据现有最先进的地位。此外,该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模,且可以从字符组成的部分编码的单词表示中得到语义和字形信息。
Aug, 2015
本文提出一种基于循环神经网络的语言模型,并利用字符信息中的 n-gram 构建单词嵌入,结合常规单词嵌入。该模型在语言模型数据集上取得最佳困惑度,同时在机器翻译和标题生成等应用任务中也表现出较好的性能。
Jun, 2019
本文通过实验证明,64 层深 (Deep) 的 transformer 模型,通过加入中间网络层和序列位置的辅助损失 (auxiliary losses),能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体,实现 1.13 和 1.06 的最小比特位 (bit per character)。
Aug, 2018
本文研究了递归神经网络在大规模语言建模中的最新进展和应用,对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨,并在 One Billion Word Benchmark 上进行了详尽的研究,最佳单一模型将习惯度从 51.3 降低到 30.0,而模型集成则创下了 41.0 到 23.7 的新纪录,在总结中,研究结果可供自然语言处理和机器学习界进一步研究和提高。
Feb, 2016
该论文研究了序列标注结构中使用单词嵌入进行相似性捕获时处理以前未见过或罕见单词时的问题,并提出了一种新颖的架构来组合替代单词表示。通过使用注意力机制,模型能够动态决定从单词或字符级组件中使用多少信息。我们在一系列序列标注数据集上评估了不同的架构,并发现字符级扩展在每个基准测试中都提高了性能。此外,即使使用较少的可训练参数,提出的基于注意力的架构也能够提供最佳结果。
Nov, 2016
我们通过提出分层 RNN 体系结构,提高了基于字符级语言模型的溢出词建模的性能。在 One Billion Word Benchmark 上,我们的 CLM 模型比 Kneser-Ney 5 元语言模型表现更好,同时参数却只有 2%。我们在 WSJ 语料库上展示了对话识别示例,并将传统的 RNN CLMs 替换为所提出的模型,即使参数数量减少了 30%,精度也有所提高。
Sep, 2016
本文研究的是低频用户提示模式或广泛提示的自动完成任务以及在受限内存下使用基于字符的语言模型降低整体模型大小的效果。研究证明,当控制模型大小时,字符模型的自动完成任务的精确匹配准确性与字模型相当。作者进一步尝试在字符模型中融入大型字模型的组成信息和表现转移的归纳偏差。
Oct, 2022
本文提出了一种字符增强的阅读器,结合字和字符嵌入的不同集成策略,用一份短列表来增强字嵌入,从而改善字的表示,特别是罕见的字。实验结果表明,这种方法显著优于各种公共基准测试中的当前最先进方法。
Aug, 2018
比较 LSTM 和 CNN 基于字符级别的词嵌入在 BiLSTM-CRF 模型中用于化学和疾病实体识别任务的效果。实验结果表明,使用任意一种字符级别嵌入方式都能使模型达到最先进的性能,但是基于 CNN 的字符级别嵌入模型具有计算性能优势,增加训练时间 25%,而基于 LSTM 的字符级别嵌入模型需要的训练时间则超过两倍。
Aug, 2018