谢菲尔德参加美洲本土语言机器翻译共享任务
本文介绍了 CIC NLP 为 AmericasNLP 2023 的美洲土著语言机器翻译系统共享任务提交的三种方法,其中使用了 M2M-100、mBART50 和 Helsinki NLP Spanish-English 翻译模型,总体而言,mBART 设置能够在 11 种语言中的三种语言中改善基线。
May, 2023
本篇研究尝试使用预训练的机器翻译模型进行从西班牙语到南美 10 种土著语言的翻译,相对于之前方法使用数据增强的手段,该方法在多种语言上取得了更好的效果。
May, 2022
本文介绍了 NAVER LABS Europe 的 Tamasheq-French 和 Quechua-Spanish 语音翻译系统,着重研究了在低资源情况下使用多语种参数高效解决方案,利用强大的预训练模型来最大化翻译质量的工作。
Jun, 2023
我们通过爬取广泛的语音语料库并应用数据增强方法,为五种土著语言(Quechua、Guarani、Bribri、Kotiria 和 Wa'ikhana)提供了可靠的自动语音识别(ASR)模型,其中包括 Wav2vec2.0 XLS-R 模型的不同变体
Apr, 2024
该论文聚焦于快速技术进步面前土著语言社区的边缘化问题,强调这些语言的文化丰富性以及它们在自然语言处理领域被忽视的风险。我们旨在弥合这些社区与研究人员之间的鸿沟,强调尊重土著社区观点的包容性技术进步的必要性。我们展示了拉丁美洲土著语言在自然语言处理方面的进展,以及涵盖拉丁美洲土著语言现状、它们在自然语言处理中的代表性,以及保护和发展它们所需要的挑战和创新的调查。该论文在理解拉丁美洲土著社区以及一般低资源土著社区的自然语言处理需求和进展方面对当前文献作出了贡献。
Apr, 2024
应用自监督方法于语音表示学习的研究已引起广泛关注,然而,目前的进展主要集中在只考虑英语的单语模型上。我们在 ASRU 2023 ML-SUPERB 挑战赛的新语言轨道上提交了一份研究报告,其中介绍了一个针对 Quechua 语(一种南美洲土著语言)的 ASR 语料库。我们评估了大规模的自监督学习模型在 Quechua 语以及其他 6 种土著语言(如 Guarani 和 Bribri)的低资源 ASR 上的效果,结果显示最先进的自监督学习模型表现出了惊人的性能,展示了大规模模型在现实数据上的潜在泛化能力。
Oct, 2023
本文回顾了关于美洲土著语言的研究、数字资源和现有的自然语言处理(NLP)系统。并呼吁在像美洲一样语言丰富和多样的区域开展 NLP 研究,以解决诸如远离语言和资源匮乏等主要挑战和研究问题。
Jun, 2018
我们提出了查理斯大学关于 MRL~2023 多语言多任务信息检索的系统。共享任务的目标是为多个代表性不足的语言开发命名实体识别和问题回答系统。我们针对两个子任务的解决方案都依赖于翻译 - 测试方法。首先,我们使用多语言机器翻译模型将无标签的示例转化为英文。然后,我们使用强大的任务特定模型对翻译后的数据进行推断。最后,我们将标记数据投射回原始语言。为了保持原始语言中推断标记的正确位置,我们提出了一种基于标签敏感翻译模型评分候选位置的方法。在两种情况下,我们尝试在翻译后的数据上微调分类模型。然而,由于开发数据和共享任务验证和测试集之间的领域不匹配,微调模型无法超越我们的基准线。
Oct, 2023
本研究介绍了 IndT5,这是首个用于土著语言的 Transformer 语言模型。研究建立了十种土著语言加西班牙语的数据集 IndCorpus,使用 IndT5 实现了西班牙语和土著语言之间的机器翻译。
Apr, 2021