在开放词汇神经语言建模中学习创造和重复使用单词
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023
本文比较现有多语言模型词汇表生成方法,提出了一种新的多语言词汇表生成方法。实验证明,该方法能够提高多个语言上的推理性能,同时在不增加模型大小或数据的情况下,将语言识别率降低了 8 倍。
Oct, 2020
本文提出了一种通过分层潜在变量模拟词态变化过程的方法,通过组合两个潜在表示(一个连续的表示和一组(近似)离散特征),逐个字符生成单词,从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。
Oct, 2019
本文研究了递归神经网络在大规模语言建模中的最新进展和应用,对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨,并在 One Billion Word Benchmark 上进行了详尽的研究,最佳单一模型将习惯度从 51.3 降低到 30.0,而模型集成则创下了 41.0 到 23.7 的新纪录,在总结中,研究结果可供自然语言处理和机器学习界进一步研究和提高。
Feb, 2016
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
本文提出了使用视觉文本表示(visual text representations)替代有限的文本嵌入向量(finite set of text embeddings),以建立起使用连续词汇(continuous vocabularies)的翻译模型,以此提高模型的稳健性减少了噪声对模型的影响。实验证明,使用视觉文本表示的模型在小型和大型数据集上实现了与传统文本模型相当或更好的表现。
Apr, 2021
使用长期短期记忆(LSTM)、字符信息和单词嵌入等技术,设计了一种基于字符的语言模型,有效提高了对单词的建模能力,优于传统基于单词的模型。
Apr, 2017
本论文提出了三种技术,可以加速新语言的学习并减轻灾难性遗忘,来提高多语言机器翻译模型的效率并最大化旧模型的重用,具体来说,这些技术包括仔细初始化网络、应用学习速率缩放、进行数据上采样。
Feb, 2023
该研究提出一种基于循环语言建模的神经模型,通过考虑作者和时间向量状态来捕捉作者社区的语言扩散趋势,从而超越了多个基于时间和非时间的语言基线,并学习了随时间变化的有意义的作者表示。
Sep, 2019