濒危语言的文本规范化：以利古里亚语为例

Jun, 2022

濒危语言的文本规范化：以利古里亚语为例

Text normalization for endangered languages: the case of Ligurian

Stefano Lusito, Edoardo Ferrante, Jean Maillard

TL;DR本文提出一种有效的 Ligurian 文本标准化方法，利用基于变压器的模型实现了较低的错误率，并在公共数据集上公开发布了 Ligurian 语言的首个单语语料库。

Abstract

text normalization is a crucial technology for low-resource languages which lack rigid spelling conventions. Low-resource text normalization

text normalization low-resource languages hand-crafted rules neural methods ligurian

发现论文，激发创造

针对濒危语言文本的 OCR 后校正

针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低 34％。

Nov, 2020

全球训练，定制本地化：极简多语翻译应用于濒危语言

针对严重低资源语言，我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本，结果表明，首先将大型预训练的多语言模型适应到有限的文本领域 / 语言，然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量，同时将种子句数量降至约 1000 句。

May, 2023

双语社区中基础语言规范化对不充分资源语言的非常规书写的影响

本文研究在社交媒体上，通过使用建模技术，对不同语言，特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理，而这有助于提高机器翻译和语言识别等下游任务的性能。

May, 2023

奥克西唐语方言的正字法变异建模

通过对多种奥克西唐方言的数据进行微调，我们在本研究中成功地对一种多语种模型进行了评估，结果显示该模型能够较好地表示这些方言。我们还通过编制一个包含四种奥克西唐方言的平行词汇表进行评估，结果显示模型根据方言之间的表层相似性加强了表示。当进一步对模型进行词性标注和通用依存分析微调时，其性能对方言变异是稳定的，即使仅使用单个方言的词性数据进行训练。我们的发现表明，大型多语种模型可以在预处理过程中最小化拼写规范化的需求。

Apr, 2024

Proteno：基于少量数据的文本归一化技术，用于快速部署文本转语音系统

使用少于 3% 英文数据的量，我们提出了一种新颖的体系结构来促进多种语言的 TTS 文本归一化系统，将 TN 视为一个序列分类问题，并提出了一种细粒度的分词机制，该机制使系统能够从训练数据本身学习大部分类及其归一化，同时结合最少的预先编码的语言知识来处理其他类别，我们发表了 TN 在西班牙语和泰米尔语 TTS 中的首个结果，并证明了该方法的性能与英文上的以前工作相当。

Apr, 2021

雇佣一位语言学家！：通过上下文语言描述学习濒危语言

我们提出 LINGOLLM，一种无需训练的方法，使大型语言模型能够处理在其预训练中几乎不出现的未知语言，从而大大提高了翻译能力。

Feb, 2024

波兰文本历时规范化的两种方法

该论文讨论了波兰文本的两种历时归一化方法：基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据，以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析，结果显示，在当前阶段的问题研究中，基于规则的解决方案在准备的数据集的 4 个变体中有 3 个表现更好，尽管在实践中，这两种方法都有各自的优势和劣势。

Feb, 2024

大规模多语言文本翻译低资源语言

通过利用资源丰富的语言的翻译资源，我们可以高效地将多种已知语言的限定文本翻译成新的资源匮乏语言，从而实现与人工翻译员合作，加快翻译进程。

Jan, 2024

优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型

大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距，但人工评估表明 BLEU 分数相比于英语有所下降，对于评估非任务特定系统其适用性存疑。

Feb, 2024

历史文本规范化系统的大规模比较

本文介绍迄今最大的历史文本规范化研究，涵盖了基于规则、距离度量、基于字符的机器翻译、神经编码器 - 解码器模型等所有提出的规范化技术类别，并使用不同的数据集和评估方法进行比较，分析了训练数据数量的影响，并提供了公开的数据集和脚本。

Apr, 2019