用于恩格尼语的亚词分语言建模

Oct, 2022

Subword Segmental Language Modelling for Nguni Languages

Francois Meyer, Jan Buys

TL;DR该研究提出了一种基于语言模型的子词分段语言模型（SSLM），在训练期间学习如何分段单词，以优化语言模型的性能。通过统一子词分割和语言建模，SSL 模型学习到优化语言建模性能的子词。结果表明，学习子词分割是现有子词分割器的有效替代方案，可以发现类似词素的子词，以提高其语言模型的能力。

Abstract

subwords have become the standard units of text in nlp, enabling efficient open-vocabulary models. With algorithms like byte-pair encoding (BPE), subword →

subwords nlp language model segmentation morphology

发现论文，激发创造

Subword 分段机器翻译：统一分段和目标句子生成

该研究提出了一种称为子词分节机器翻译（SSMT）的新方法，通过在单个可训练模型中联合学习目标句子单词的分割和目标句子生成，在生成翻译过程中采用动态解码算法进行细分操作，实验结果表明，SSMT 能提高粘着语言的 chrF 分数以及对于评估形态组成通用性构建的测试集的鲁棒性也更强。

May, 2023

SelfSeg: 神经机器翻译的自监督子字符分词方法

该论文介绍了一种名为 SelfSeg 的自监督神经子词分割方法，它比传统的字节对编码（BPE）更快，只需要单语词典而不需要平行语料库，并且在实验中表现出更好的性能。

Jul, 2023

利用子词信息学习词表示的系统研究

本研究通过对五种语言的三个任务进行大量实验研究，发现在利用子词级别信息进行词表示学习时，不同语言和任务下，分词和组成函数等关键组件的最优配置各异。同时，我们还发现，一些无监督分词方法，如 BPE 和 Morfessor 等，有时能够和甚至超过一些基于监督分词方法的配置。

Apr, 2019

多语言翻译中的子词和跨语言转移的系统分析

此研究探讨了子词切分在跨语言迁移中的作用，发现子词规范化提高了多语言建模的协同效应，而 BPE 在跨语言微调中更有效地促进了迁移，在子词建模方面的决策对于优化多语言建模的好处至关重要。

Mar, 2024

基于形态学意识的分词在低资源神经机器翻译中的有效性

比较了基于形态学和 BPE 方法的子词切分对低资源神经机器翻译任务的影响，发现其对翻译性能影响不一，并且各自有表现最好的情况。

Mar, 2021

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018

BPE 与形态分割：关于四种多合成语言机器翻译的个案研究

本文探究了针对四种多合成语言（Nahuatl，Raramuri，Shipibo-Konibo 和 Wixarika）的一系列监督式和非监督式的词形分割方法，并将词形分割方法与字节对编码（BPEs）进行比较，发现在翻译到和从西班牙语的所有语言对中，除了 Nahuatl 外，非监督式的词形分割算法一直表现优异，而监督式的方法在机器翻译挑战中表现不佳。最后，我们为 Raramuri 和 Shipibo-Konibo 捐献了两个新的词形分割数据集，以及一个 Raramuri - 西班牙语平行语料库。

Mar, 2022

通过语言学信息的次词单位分词和次字符分解来提升韩文 NLP 任务

我们介绍了一种考虑词素的子词切分方法，利用字符的分解方法来解决字节对编码（BPE）在韩语中应用所面临的挑战，韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型（PLMs）中平衡了语言准确性和计算效率。我们的评估结果显示，该技术在整体上表现良好，显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力，表示采用更多的语言洞察力可以进一步提高性能，超越标准的形态分析。

Nov, 2023

使用多个子词候选项改进神经网络翻译模型的子词正则化

介绍了一种利用 subword segmentation 的噪声来提高神经机器翻译鲁棒性的正则化方法，主要应用于低资源领域。

Apr, 2018

词汇基础的子词切分

我们提出了三个在标记化和子词分割中的创新。首先，我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次，我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此，我们设计了一种使用嵌入的新型子词分割算法，确保该过程考虑了词汇意义。第三，我们引入了一种基于子词二元模型的高效分割算法，可使用词汇感知分割方法进行初始化，以避免在推理时使用 Morfessor 和大型嵌入表。我们使用两个内在指标评估了所提出的方法，并在两个下游任务上测试了其性能：词性标注和机器翻译。我们的实验证明，在各语言上，通过在词素边界上评估的分割精度和改进的 Rényi 效率方面，该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大，但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。

Jun, 2024