谢菲尔德参加美洲本土语言机器翻译共享任务

Jun, 2023

谢菲尔德参加美洲本土语言机器翻译共享任务

Sheffield's Submission to the AmericasNLP Shared Task on Machine Translation into Indigenous Languages

Edward Gow-Smith, Danae Sánchez Villegas

TL;DR本文介绍了谢菲尔德大学针对 2023 年的 AmericasNLP 机器翻译大赛中，从西班牙语翻译成 11 种土著语言的参赛方案，使用不同变体的 NLLB-200 进行扩展，训练和组合，包括组成，手册，新闻文章和单语数据生成的回译数据。在测试集上，我们获得了所有提交的最高平均 chrF 分数，其中四种语言排名第一，我们的至少一份提交在所有语言中排名前三。

Abstract

In this paper we describe the University of Sheffield's submission to the AmericasNLP 2023 Shared Task on machine translation into indigenous languages which comprises the translation from Spanish to eleven

machine translation indigenous languages nllb-200 data sources evaluation results

发现论文，激发创造

加强对原住民语言的翻译：多语模型实验

本文介绍了 CIC NLP 为 AmericasNLP 2023 的美洲土著语言机器翻译系统共享任务提交的三种方法，其中使用了 M2M-100、mBART50 和 Helsinki NLP Spanish-English 翻译模型，总体而言，mBART 设置能够在 11 种语言中的三种语言中改善基线。

May, 2023

多语言迁移学习改进原住民语言的神经机器翻译

本篇研究尝试使用预训练的机器翻译模型进行从西班牙语到南美 10 种土著语言的翻译，相对于之前方法使用数据增强的手段，该方法在多种语言上取得了更好的效果。

May, 2022

美洲土著语言的神经机器翻译：介绍

介绍了用于低资源语言机器翻译的神经模型的挑战、概念和技术，最后讨论了 NLP 社区对这些语言的兴趣所带来的最新进展和发现。

Jun, 2023

NAVER LABS Europe 的多语种语音翻译系统对 IWSLT 2023 低资源轨道的支持

本文介绍了 NAVER LABS Europe 的 Tamasheq-French 和 Quechua-Spanish 语音翻译系统，着重研究了在低资源情况下使用多语种参数高效解决方案，利用强大的预训练模型来最大化翻译质量的工作。

Jun, 2023

原生语言的 ASR 进展：Quechua, Guarani, Bribri, Kotiria 和 Wa'ikhana

我们通过爬取广泛的语音语料库并应用数据增强方法，为五种土著语言（Quechua、Guarani、Bribri、Kotiria 和 Wa'ikhana）提供了可靠的自动语音识别（ASR）模型，其中包括 Wav2vec2.0 XLS-R 模型的不同变体

Apr, 2024

拉丁美洲土著语言的自然语言处理进展

该论文聚焦于快速技术进步面前土著语言社区的边缘化问题，强调这些语言的文化丰富性以及它们在自然语言处理领域被忽视的风险。我们旨在弥合这些社区与研究人员之间的鸿沟，强调尊重土著社区观点的包容性技术进步的必要性。我们展示了拉丁美洲土著语言在自然语言处理方面的进展，以及涵盖拉丁美洲土著语言现状、它们在自然语言处理中的代表性，以及保护和发展它们所需要的挑战和创新的调查。该论文在理解拉丁美洲土著社区以及一般低资源土著社区的自然语言处理需求和进展方面对当前文献作出了贡献。

Apr, 2024

评估自监督语音表示对美国土著语言的应用

应用自监督方法于语音表示学习的研究已引起广泛关注，然而，目前的进展主要集中在只考虑英语的单语模型上。我们在 ASRU 2023 ML-SUPERB 挑战赛的新语言轨道上提交了一份研究报告，其中介绍了一个针对 Quechua 语（一种南美洲土著语言）的 ASR 语料库。我们评估了大规模的自监督学习模型在 Quechua 语以及其他 6 种土著语言（如 Guarani 和 Bribri）的低资源 ASR 上的效果，结果显示最先进的自监督学习模型表现出了惊人的性能，展示了大规模模型在现实数据上的潜在泛化能力。

Oct, 2023

美洲土著语言的语言技术挑战

本文回顾了关于美洲土著语言的研究、数字资源和现有的自然语言处理（NLP）系统。并呼吁在像美洲一样语言丰富和多样的区域开展 NLP 研究，以解决诸如远离语言和资源匮乏等主要挑战和研究问题。

Jun, 2018

2023 年 MRL 多语言多任务信息检索共享任务 CUNI 提交

我们提出了查理斯大学关于 MRL~2023 多语言多任务信息检索的系统。共享任务的目标是为多个代表性不足的语言开发命名实体识别和问题回答系统。我们针对两个子任务的解决方案都依赖于翻译 - 测试方法。首先，我们使用多语言机器翻译模型将无标签的示例转化为英文。然后，我们使用强大的任务特定模型对翻译后的数据进行推断。最后，我们将标记数据投射回原始语言。为了保持原始语言中推断标记的正确位置，我们提出了一种基于标签敏感翻译模型评分候选位置的方法。在两种情况下，我们尝试在翻译后的数据上微调分类模型。然而，由于开发数据和共享任务验证和测试集之间的领域不匹配，微调模型无法超越我们的基准线。

Oct, 2023

IndT5：一个用于 10 种土著语言的文本到文本转换器

本研究介绍了 IndT5，这是首个用于土著语言的 Transformer 语言模型。研究建立了十种土著语言加西班牙语的数据集 IndCorpus，使用 IndT5 实现了西班牙语和土著语言之间的机器翻译。

Apr, 2021