引入音节分词技术用于低资源语言:以斯瓦希里语为例研究
本文探讨利用音节对语言建模和机器翻译的作用。通过 21 种语言的实验,我们发现音节优于字符和其他的子词。在对一个非相关和低资源语言组(西班牙语 - Shipibo-Konibo)进行翻译时,音节在成对的和多语言的系统中优于无监督的子词和进一步的形态分割方法。最后,我们进行了一些人类评估,并讨论了局限和机遇。
Oct, 2022
该研究提出了一种基于语言模型的子词分段语言模型(SSLM),在训练期间学习如何分段单词,以优化语言模型的性能。通过统一子词分割和语言建模,SSL 模型学习到优化语言建模性能的子词。结果表明,学习子词分割是现有子词分割器的有效替代方案,可以发现类似词素的子词,以提高其语言模型的能力。
Oct, 2022
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
本研究主要针对非洲土著语言的神经机器翻译问题,提出基于 Word-Expressions-Based 的超词标记策略,相较于其他标记方法可以更好地应对具有语法、韵律、声调特征的非洲语言翻译训练的困难性。实验结果表明,在 Fon - 法语和法语 - Fon 的翻译任务中,基于该方法得到的 NMT 模型更加可靠。
Mar, 2021
本文对不同的子词分词策略、词汇生成方法及 Fine-tuning 进行了系统的实证研究,旨在找到一种最佳的 Fine-tuning 领域特定模型的设置,实验结果表明最好的模型达到了比基线模型 6 个 BLEU 分数的提升效果。
Mar, 2023
本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该神经分词器能显著提升多语言(NLI)和混合语言情感分析等任务的性能并且具有较强的鲁棒性。
Apr, 2022
通过追踪分词器从词级到子词级的演变,本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”,本文提出了一种新的 LLN 分词器 LiB 模型,它可以自主学习由子词、词和多词表达式组成的综合词汇,从而有效减少标记和类型的数量。比较评估显示,LiB 分词器优于现有的词级和 BPE 分词器,为分词器开发提供了创新方法,并提示未来的基于认知科学的分词器可能更为高效。
Mar, 2024
我们研究了在语言资源匮乏情况下对名词实体识别(NER)系统进行改进的方法,并通过将 BERT-based 子词标记器集成到传统的 CNN/LSTM 模型中,展示了提高其准确性的有效途径。在 Marathi 这种低资源语言环境下的案例研究中,我们发现使用子词标记化对 NER 的重要性,并呈现了构建高效 NLP 系统的研究。
Dec, 2023