引入音节分词技术用于低资源语言：以斯瓦希里语为例研究

Mar, 2024

引入音节分词技术用于低资源语言：以斯瓦希里语为例研究

Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili

Jesse Atuhurra, Hiroyuki Shindo, Hidetaka Kamigaito, Taro Watanabe

TL;DR我们提出了一种音节分词器，并采用实验为中心的方法验证所提出的分词器在斯瓦希里语中的有效性。我们使用 GPT2 进行文本生成实验，结果证明所提出的音节分词器能够有效地表示斯瓦希里语。

Abstract

Many attempts have been made in multilingual nlp to ensure that pre-trained language models, such as mBERT or GPT2 get better and become applicable to low-resource languages. To achieve multilingualism for pre-trained language models (PLMs), we need techniques to create →

multilingual nlp pre-trained language models word embeddings tokenization syllable tokenizer

发现论文，激发创造

重新审视音节在语言建模中的作用及其在低资源机器翻译上的应用

本文探讨利用音节对语言建模和机器翻译的作用。通过 21 种语言的实验，我们发现音节优于字符和其他的子词。在对一个非相关和低资源语言组（西班牙语 - Shipibo-Konibo）进行翻译时，音节在成对的和多语言的系统中优于无监督的子词和进一步的形态分割方法。最后，我们进行了一些人类评估，并讨论了局限和机遇。

Oct, 2022

用于恩格尼语的亚词分语言建模

该研究提出了一种基于语言模型的子词分段语言模型（SSLM），在训练期间学习如何分段单词，以优化语言模型的性能。通过统一子词分割和语言建模，SSL 模型学习到优化语言建模性能的子词。结果表明，学习子词分割是现有子词分割器的有效替代方案，可以发现类似词素的子词，以提高其语言模型的能力。

Oct, 2022

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

Fon 语的低资源神经机器翻译基于众包的基于短语的分词

本研究主要针对非洲土著语言的神经机器翻译问题，提出基于 Word-Expressions-Based 的超词标记策略，相较于其他标记方法可以更好地应对具有语法、韵律、声调特征的非洲语言翻译训练的困难性。实验结果表明，在 Fon - 法语和法语 - Fon 的翻译任务中，基于该方法得到的 NMT 模型更加可靠。

Mar, 2021

使用音节子词标记进行开放词汇马拉雅拉姆语语音识别

本文探讨了在马拉雅拉姆语自动语音识别中使用音节子单元作为音素字典和语言模型，并评估了词汇量、内存需求和词语错误率的相对改善。

Jan, 2023

领域内翻译最佳微调的词汇和 BPE 设置的系统分析 —— 以 NMT 为例

本文对不同的子词分词策略、词汇生成方法及 Fine-tuning 进行了系统的实证研究，旨在找到一种最佳的 Fine-tuning 领域特定模型的设置，实验结果表明最好的模型达到了比基线模型 6 个 BLEU 分数的提升效果。

Mar, 2023

一种无需词汇表的多语言神经标记器，用于端到端任务学习

本文提出了一种无需词汇表的神经分词器，通过处理多语言语料库中的独特单词来预训练基于字符的分词器，从而广泛增加语言间的单词多样性，进而克服了子词分词存在的一些问题，如无法进行端到端任务学习，适应性不足，以及在低资源语言中表现欠佳等，实验证明该神经分词器能显著提升多语言（NLI）和混合语言情感分析等任务的性能并且具有较强的鲁棒性。

Apr, 2022

重新思考分词：为大型语言模型打造更好的分词器

通过追踪分词器从词级到子词级的演变，本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”，本文提出了一种新的 LLN 分词器 LiB 模型，它可以自主学习由子词、词和多词表达式组成的综合词汇，从而有效减少标记和类型的数量。比较评估显示，LiB 分词器优于现有的词级和 BPE 分词器，为分词器开发提供了创新方法，并提示未来的基于认知科学的分词器可能更为高效。

Mar, 2024

关于子词标记对于低资源和高效命名实体识别的意义：马拉地语案例研究

我们研究了在语言资源匮乏情况下对名词实体识别（NER）系统进行改进的方法，并通过将 BERT-based 子词标记器集成到传统的 CNN/LSTM 模型中，展示了提高其准确性的有效途径。在 Marathi 这种低资源语言环境下的案例研究中，我们发现使用子词标记化对 NER 的重要性，并呈现了构建高效 NLP 系统的研究。

Dec, 2023

利用形态和音位子单元表示将词嵌入适应新语言

使用语言学驱动的子词单元：音素、词素和字形，提高低资源语言下的自然语言处理、实体名称识别和机器翻译表现。

Aug, 2018