濒危语言的文本规范化:以利古里亚语为例
针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况,本文提出了一种从不可读的文本数据中提取文本的方法,具体而言,在三种极度濒危的语言中创建了一个基准数据集,并针对数据不足的 OCR 研究有效性做了系统分析,开发了一种针对数据不足的 OCR 后校正方法,平均可将识别错误率降低 34%。
Nov, 2020
针对严重低资源语言,我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本,结果表明,首先将大型预训练的多语言模型适应到有限的文本领域 / 语言,然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量,同时将种子句数量降至约 1000 句。
May, 2023
本文研究在社交媒体上,通过使用建模技术,对不同语言,特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理,而这有助于提高机器翻译和语言识别等下游任务的性能。
May, 2023
通过对多种奥克西唐方言的数据进行微调,我们在本研究中成功地对一种多语种模型进行了评估,结果显示该模型能够较好地表示这些方言。我们还通过编制一个包含四种奥克西唐方言的平行词汇表进行评估,结果显示模型根据方言之间的表层相似性加强了表示。当进一步对模型进行词性标注和通用依存分析微调时,其性能对方言变异是稳定的,即使仅使用单个方言的词性数据进行训练。我们的发现表明,大型多语种模型可以在预处理过程中最小化拼写规范化的需求。
Apr, 2024
使用少于 3% 英文数据的量,我们提出了一种新颖的体系结构来促进多种语言的 TTS 文本归一化系统,将 TN 视为一个序列分类问题,并提出了一种细粒度的分词机制,该机制使系统能够从训练数据本身学习大部分类及其归一化,同时结合最少的预先编码的语言知识来处理其他类别,我们发表了 TN 在西班牙语和泰米尔语 TTS 中的首个结果,并证明了该方法的性能与英文上的以前工作相当。
Apr, 2021
该论文讨论了波兰文本的两种历时归一化方法:基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据,以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析,结果显示,在当前阶段的问题研究中,基于规则的解决方案在准备的数据集的 4 个变体中有 3 个表现更好,尽管在实践中,这两种方法都有各自的优势和劣势。
Feb, 2024
大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距,但人工评估表明 BLEU 分数相比于英语有所下降,对于评估非任务特定系统其适用性存疑。
Feb, 2024
本文介绍迄今最大的历史文本规范化研究,涵盖了基于规则、距离度量、基于字符的机器翻译、神经编码器 - 解码器模型等所有提出的规范化技术类别,并使用不同的数据集和评估方法进行比较,分析了训练数据数量的影响,并提供了公开的数据集和脚本。
Apr, 2019