使用网络抓取的数据微调 Kalaallisut-英语机器翻译系统

Jun, 2022

使用网络抓取的数据微调 Kalaallisut-英语机器翻译系统

Finetuning a Kalaallisut-English machine translation system using web-crawled data

Alex Jones

TL;DR本文介绍了如何利用多语言网站数据，构建Kalaallisut语言和英语之间的机器翻译模型并生成合成语料库，同时也讨论了如何利用单语Kalaallisut数据以及未来的研究方向和可能性。

Abstract

West Greenlandic, known by native speakers as kalaallisut, is an extremely low-resource polysynthetic language spoken by around 56,000 people in Greenland. Here, we attempt to finetune a pretrained kalaallisut-to

发现论文，激发创造

使用单语数据改进神经机器翻译模型

通过将单语数据与自动背景翻译配对，我们未改变神经网络结构，使用目标语单语训练数据进行神经机器翻译（NMT）模型的训练，并在多项任务上取得最新的最优结果（最高+2.8-3.7 BLEU），并证明了使用领域单语和平行数据进行微调，对IWSLT 15任务英德翻译有实质性的改善。

Nov, 2015

神经机器翻译中的回译研究

本研究探讨了使用回译数据对NMT模型性能的影响，通过逐步增加回译数据来训练一系列以德语为源语言，以英语为目标语言的NMT系统，并分析了相应的翻译绩效。

Apr, 2018

翻译Translationese：一种无监督机器翻译的两步方法

通过将翻译分为生成草稿和翻译草稿的两个步骤，借助于无监督技术，我们可以快速生成无监督神经机器翻译系统。将该过程应用于14种测试语言，对于从未被用于无监督机器翻译的低资源语言，我们获得了良好的结果。

Jun, 2019

野外大规模多语言神经机器翻译：发现与挑战

我们致力于构建一款通用的神经机器翻译系统，通过构建一个单一的大规模多语言NMT模型，实现了103种语言之间的翻译，带有有效的迁移学习能力，显着提高了低资源语言的翻译质量，同时保持高资源语言翻译质量与竞争双语基线相当，为实现通用NMT模型的质量和实用性提供了多个方面的模型构建分析，并指出未来研究的方向和需进一步解决的问题。

Jul, 2019

探索有监督学习和自监督学习之间的协同作用：迈向多语言机器翻译的下一个1000种语言

通过混合监督和自我监督目标的方法，实现了覆盖数百种语言的多语言机器翻译模型的构建，该方法可在零资源情况下生成高质量翻译，甚至超过低-中资源语言的监督翻译质量。

Jan, 2022

为下一个千种语言构建机器翻译系统

描述了我们构建跨越1000个语言翻译的实用机器翻译系统的努力，包括构建干净的数据集、使用监督并行数据训练的大规模多语言模型和单语数据集以及研究评估语言的限制和误差模式。

May, 2022

使用一致性正则化的半监督神经机器翻译技术——面向低资源语言

本文介绍一种半监督的方法来解决低资源语言机器翻译的问题，通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量，将交叉熵损失和 KL 散度相结合，特别是通过伪目标句子实现无监督训练，实验证明该方法可以显著提高 NMT 基线性能

Apr, 2023

通过近缘语言进行向低资源语言的转移：以法罗语为例的案例研究

通过研究低资源语言法罗语和高资源语言家族之间的语言分类、起源和进化关系，将在多语言语境下的NLP应用中常用的“一刀切”（one-size-fits-all)的翻译方式转变为提供更高的翻译准确度，同时利用丰富的斯堪的那维亚语言（丹麦语、挪威语、瑞典语和冰岛语）的资源来为Faroeese语提供支持，其结果表明可以大幅提高向低资源语言法罗语的翻译性能，并开发了一个新的web Farosee语料库，并提供命名实体识别（NER），语义文本相似度（STS）和所有斯堪的那维亚语言训练的新语言模型的数据集。

Apr, 2023

美洲土著语言的神经机器翻译: 介绍

介绍了用于低资源语言机器翻译的神经模型的挑战、概念和技术，最后讨论了NLP社区对这些语言的兴趣所带来的最新进展和发现。

Jun, 2023

建立预训练语言模型的方法：无数据？别担心，采用翻译语言

通过使用机器翻译创建合成数据（Translationese）预训练语言模型（LMs），本研究探讨了将Translationese作为一种用于预训练语言模型的可用性。我们以英语和印度语为例，将网络抓取的单语文档翻译成目标语言，然后在这些合成数据（synthetic）上用含有2800万和8500万参数的语言模型进行训练。实验证明，在下游自然语言理解和生成任务中，与基于干净数据进行预训练的语言模型相比，我们的模型性能仅差3.56％（自然语言理解任务）和1.51％（自然语言生成任务）。此外，我们提出了使用基于干净数据进行预训练的轻量级TinyLMs有效过滤合成数据的方法，从而显著提高模型性能。我们还发现，在一个微小比例（10％）的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集IndicMonoDoc是最大的单语文档级语料库，希望能够弥补英语和非英语大型语言模型性能差距。

Mar, 2024