Mainumby: 西班牙语 - 瓜拉尼语翻译助手

Oct, 2018

Mainumby: 西班牙语 - 瓜拉尼语翻译助手

Mainumby: un Ayudante para la Traducción Castellano-Guaraní

Michael Gasser

TL;DR本文提出了一种基于 “广义片段翻译” 理论的计算机辅助翻译框架，并通过其在西班牙语 - 瓜拉尼语翻译中实现的 Web 应用程序，为边缘化语言的计算机翻译架起了一座桥梁。

Abstract

A wide range of applications play an important role in the daily work of the modern human translator. However, the computational tools designed to aid in the process of translation only benefit translation from or to a small minority of the 7,000 languages of the world, those that we may call "privileged languages". As for those translators who work with the

computer-assisted translation marginalized languages translation by generalized segments bilingual corpora web application

发现论文，激发创造

全球训练，定制本地化：极简多语翻译应用于濒危语言

针对严重低资源语言，我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本，结果表明，首先将大型预训练的多语言模型适应到有限的文本领域 / 语言，然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量，同时将种子句数量降至约 1000 句。

May, 2023

构建数字语言鸿沟的桥梁

AI 技术中的语言偏见是研究和开发方法论不公正的结果，我们提出了一项新的倡议，旨在通过技术设计和方法论，与当地社区进行眼球级的合作，减少语言偏见。

Jul, 2023

无人被落下的语言：人本机器翻译的扩展

本文介绍了一项针对低资源语言的研究，使用 Sparsely Gated Mixture of Experts 模型结合新的数据挖掘技术进行训练，从而实现了机器翻译中对于低资源语言的支持并提高了 BLEU 值。

Jul, 2022

可访问的多语言文本分析的机器翻译

本文研究通过机器翻译将其他语言翻译成英文进行多语言文本分析，结果表明这种方法在情感分析，主题分析和词嵌入等分析方法上，与使用源语言进行分析的结果相当，机器翻译可以帮助计算机学者做出关于人类沟通的更具包容性和普适性的结论。

Jan, 2023

大规模多语言文本翻译低资源语言

通过利用资源丰富的语言的翻译资源，我们可以高效地将多种已知语言的限定文本翻译成新的资源匮乏语言，从而实现与人工翻译员合作，加快翻译进程。

Jan, 2024

将濒危语言引入数字时代：犹太西班牙语案例研究

本研究致力于通过机器翻译和语音合成系统来促进西班牙犹太语（Sephardic Jews 的流亡语言）的复兴，通过创建语料库和工具，帮助保存这种语言，研究者使用规则驱动的机器翻译系统将西班牙语翻译成犹太西班牙语，生成大量的合成平行数据，并根据犹太西班牙语社区的翻译创建了真实的平行数据，训练了基于神经网络的机器翻译引擎，同时还开发了单一发言人的 3.5 小时语音语料库，用于构建神经语音合成引擎，并公开共享了相关资源和引擎。

May, 2022

低资源语言医疗翻译实现

本研究聚焦于解决卡塔尔移民工人与医务人员之间的语言障碍问题，尤其是通过开发一种真实可行的印地语 - 英语机器翻译系统来提高医生和患者之间的交流质量，我们采用了各种方法来收集适合的训练数据，并成功地通过生成合成变量的方法自动扩充训练数据，从而实现了 BLEU 分数绝对值提高超过 3 分。

Oct, 2016

Kreyòl-MT: 构建拉美、加勒比和殖民地非洲克里奥尔语的机器翻译系统

对于学术研究长期以来忽视的克里奥尔语言，我们提供了到目前为止最大的克里奥尔语机器翻译累积数据集，包括 14.5M 句独特的克里奥尔语句子和平行翻译，其中公开发布的有 11.6M 个；此外，我们还提供了支持 172 个翻译方向的 41 种克里奥尔语言的机器翻译模型，利用这个多样化的数据集，我们的模型在 23 个翻译方向的 34 个中超过了一种专门用于克里奥尔语的模型。

May, 2024

失落的翻译：多合成语和融合语言机器翻译中的信息丢失分析

探究多合成语到屈折语的机器翻译难点，通过从三种低资源多合成语 (Nahuatl、Wixarika 和 Yorem Nokki) 到西班牙语和西班牙语到这几种语言之间的翻译实验，分析了多合成语词素在汉语中没有对应转化的难点，归纳了容易无法被匹配的词缀类型。

Jul, 2018

玛雅语和西班牙方言之间非正式语体机器翻译的精选数据集和神经模型

开发了 MayanV 数据集并提供了神经机器翻译模型，这些模型在许多 Mayan 语言资源上进行了训练，并且在 MayanV 数据集上进行了评估，研究发现了不同方言之间的词汇差异，并且其他资源似乎不能提高翻译性能。

Apr, 2024