无监督形态树分词器
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023
本研究提出了一种基于形态分词的语言学分词方案 MorphPiece,并使用此方法训练了一个基于 GPT 的语言模型 MorphGPT。相对于标准的 BPE 分词器,MorphGPT 具有更好的性能表现,包括在超大语言模型性能及 NLP 任务上表现出更高水平。
Jul, 2023
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用 Morfessor 和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的 Rényi 效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024
本文研究了在土耳其语 (OSCAR corpus) 的分裂数据上,比较了不同粒度级别的分词器的性能和预训练语言模型的效果,并发现单独定制的分子级别分词器具有挑战性的表现,同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用 RoBERTa 预训练的中型语言模型的性能。
Apr, 2022
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
本文提出了一种通过分层潜在变量模拟词态变化过程的方法,通过组合两个潜在表示(一个连续的表示和一组(近似)离散特征),逐个字符生成单词,从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。
Oct, 2019
本论文研究了如何在语言的概率模型中考虑单词的子结构。从单词的形态学基本概念出发,提出了三种不同类型的语言模型。在 n 元语言模型中,提出了一种基于复合词分解的 Bayesian 模型,还开发了一种新的分布式语言模型。在这两种情况下,论文表明考虑单词的子结构可以提高模型性能和机器翻译的质量。此外,我们还探讨了一些可以自动学习语言词根及语言特征的模型。这些方法应用在闪族语言上表现出更好的结果。
Aug, 2015
提出了一种结合了上下文化词元表示和字符级解码的神经分割模型,对于具有高令牌内部复杂性和极度形态歧义的希伯来语和阿拉伯语等语言,其分割准确性得到了显着提高,并对下游 NLP 任务的表现进行优化。
Mar, 2022
本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该神经分词器能显著提升多语言(NLI)和混合语言情感分析等任务的性能并且具有较强的鲁棒性。
Apr, 2022