在开放词汇神经语言建模中学习创造和重复使用单词

ACLApr, 2017

在开放词汇神经语言建模中学习创造和重复使用单词

Learning to Create and Reuse Words in Open-Vocabulary Neural Language Modeling

Kazuya Kawakami, Chris Dyer, Phil Blunsom

TL;DR使用具有缓存机制的分层 LSTM 语言模型在多种语言维基百科文章上进行开放词汇量语言建模，通过字符级别的生成实现不同语言之间的数据共享，进而可以有效解决固定词汇量模型中常见的新词问题。

Abstract

Fixed-vocabulary language models fail to account for one of the most characteristic statistical facts of natural language: the frequent creation and reuse of new word types. Although character-level →

language models character-level hierarchical lstm open vocabulary multilingual wikipedia corpus

发现论文，激发创造

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

利用语言聚类词汇改进多语言模型

本文比较现有多语言模型词汇表生成方法，提出了一种新的多语言词汇表生成方法。实验证明，该方法能够提高多个语言上的推理性能，同时在不增加模型大小或数据的情况下，将语言识别率降低了 8 倍。

Oct, 2020

面向开放词汇神经机器翻译的隐变形模型

本文提出了一种通过分层潜在变量模拟词态变化过程的方法，通过组合两个潜在表示（一个连续的表示和一组（近似）离散特征），逐个字符生成单词，从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。

Oct, 2019

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

从视觉文本表示实现鲁棒性开放词汇翻译

本文提出了使用视觉文本表示（visual text representations）替代有限的文本嵌入向量（finite set of text embeddings），以建立起使用连续词汇（continuous vocabularies）的翻译模型，以此提高模型的稳健性减少了噪声对模型的影响。实验证明，使用视觉文本表示的模型在小型和大型数据集上实现了与传统文本模型相当或更好的表现。

Apr, 2021

Character-Word LSTM 语言模型

使用长期短期记忆（LSTM）、字符信息和单词嵌入等技术，设计了一种基于字符的语言模型，有效提高了对单词的建模能力，优于传统基于单词的模型。

Apr, 2017

高效升级多语言机器翻译模型以支持更多语言

本论文提出了三种技术，可以加速新语言的学习并减轻灾难性遗忘，来提高多语言机器翻译模型的效率并最大化旧模型的重用，具体来说，这些技术包括仔细初始化网络、应用学习速率缩放、进行数据上采样。

Feb, 2023

门控字、词循环语言模型

本研究提出一种基于长短时记忆（LSTM）单元的循环神经网络语言模型（RNN-LM），有效地利用字符级和单词级输入，在预测英语文本中的下一个单词方面表现优异。

Jun, 2016

使用时间语言模型学习动态作者表示

该研究提出一种基于循环语言建模的神经模型，通过考虑作者和时间向量状态来捕捉作者社区的语言扩散趋势，从而超越了多个基于时间和非时间的语言基线，并学习了随时间变化的有意义的作者表示。

Sep, 2019