建立预训练语言模型的方法：无数据？别担心，采用翻译语言

Mar, 2024

建立预训练语言模型的方法：无数据？别担心，采用翻译语言

Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese

Meet Doshi, Raj Dabre, Pushpak Bhattacharyya

TL;DR通过使用机器翻译创建合成数据（Translationese）预训练语言模型（LMs），本研究探讨了将 Translationese 作为一种用于预训练语言模型的可用性。我们以英语和印度语为例，将网络抓取的单语文档翻译成目标语言，然后在这些合成数据（synthetic）上用含有 2800 万和 8500 万参数的语言模型进行训练。实验证明，在下游自然语言理解和生成任务中，与基于干净数据进行预训练的语言模型相比，我们的模型性能仅差 3.56％（自然语言理解任务）和 1.51％（自然语言生成任务）。此外，我们提出了使用基于干净数据进行预训练的轻量级 TinyLMs 有效过滤合成数据的方法，从而显著提高模型性能。我们还发现，在一个微小比例（10％）的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集 IndicMonoDoc 是最大的单语文档级语料库，希望能够弥补英语和非英语大型语言模型性能差距。

Abstract

In this paper, we explore the utility of \textit{translationese} as synthetic data created using machine translation for pre-training language models (LMs). Pre-training requires vast amounts of monolingual data,

translationese pre-training language models synthetic data indic languages monolingual document-level corpora

发现论文，激发创造

通过持续预训练和字典学习分析改进使用翻译数据训练的语言模型

利用机器翻译从英语训练 LLMs 在低资源语言中通常会带来翻译的挑战，然而我们研究了机器翻译和合成数据在训练语言模型中的作用，并通过案例研究展示了改进的效果。

May, 2024

利用合成目标进行机器翻译

使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能，这种方法可以优于在实际数据上训练模型，效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。

May, 2023

神经机器翻译的合成预训练任务

本研究旨在探讨何种情况下用合成资源进行预训练是有效的。我们将神经机器翻译作为情景背景，研究使用两种新方法进行翻译模型预训练的影响，并在多种语言对上进行实证评估，结果表明预训练的好处即使在混淆或纯合成数据的情况下也可以实现，并研究混淆和合成预训练技术能够减轻虚假模型毒性的程度。

Dec, 2022

使用单语数据改进神经机器翻译模型

通过将单语数据与自动背景翻译配对，我们未改变神经网络结构，使用目标语单语训练数据进行神经机器翻译（NMT）模型的训练，并在多项任务上取得最新的最优结果（最高 + 2.8-3.7 BLEU），并证明了使用领域单语和平行数据进行微调，对 IWSLT 15 任务英德翻译有实质性的改善。

Nov, 2015

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

利用大型语言模型改进文本嵌入

通过使用合成数据和少于 1k 个训练步骤，我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同，我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据，我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明，我们的方法在高度竞争的文本嵌入基准上具有强大的性能，而不使用任何标记数据。此外，当用合成数据和标记数据的混合进行微调时，我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。

Dec, 2023

仅使用合成的平行数据构建神经机器翻译系统

本文探讨了使用合成的并行数据在神经机器翻译中的作用，提出了一种新型的伪并行语料库，在捷克 - 德语和法语 - 德语翻译方面进行了实验证明其有效性。

Apr, 2017

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

利用自监督单语数据进行多语言神经机器翻译

本文研究了两个方向在低资源的神经机器翻译中的应用。第一种方向利用高资源语言通过多语言 NMT 来提高低资源语言的翻译质量。第二种方向利用自监督单语数据来预训练翻译模型并在少量监督数据的支持下进行 fine-tuning。本研究结合这两种方向，证明了单语数据对于多语言 NMT 的有效性，并提出了三个重要结果：(i) 使用单语数据显著提高了多语言模型中低资源语言的翻译质量。(ii) 自监督在多语言模型中提高了零样本翻译质量。(iii) 利用带自监督的单语数据为多语言模型添加新语言提供了一条可行的路径，在没有任何平行数据或回译的情况下，对于罗马尼亚 - 英语的翻译获得了高达 33 BLEU 的结果。

May, 2020

使用大语言模型引导多语言语义分析器

使用大型语言模型通过少量提示将英文数据集转化为多种语言，以实现多语言语义解析，并在两个公共数据集上与传统的翻译 - 训练方法进行比较，表明使用 LLM 更有效。

Oct, 2022