利用预训练语言模型嫁接的多语言翻译

EMNLPSep, 2021

利用预训练语言模型嫁接的多语言翻译

Multilingual Translation via Grafting Pre-trained Language Models

Zewei Sun, Mingxuan Wang, Lei Li

TL;DR本文提出了 Graformer 模型，将预训练的 BERT 和 GPT 结合起来，分别作为编码器和解码器用于机器翻译，得到了比同等规模的多语言 Transformer 更好的翻译结果。

Abstract

Can pre-trained bert for one language and gpt for another be glued together to translate texts? Self-supervised training using only monolingual data has led to the success of pre-trained (masked) →

bert gpt language models machine translation graformer

发现论文，激发创造

语言无关的 BERT 句子嵌入

本研究旨在通过探究多种单语和跨语言表示学习方法，如掩码语言建模，翻译语言建模和双编码器翻译排名等，结合预训练的多语言模型来学习多语言句子嵌入，并成功将其用于多语言文本检索和机器翻译任务中。

Jul, 2020

使用预训练字素模型的神经音素转换

本文提出了一种预训练的字形模型 GBERT，通过两种方法将其融合到基于 Transformer 的 G2P 模型中，实验证明了该模型在 SIGMORPHON 2021 G2P 任务的中低资源数据情况下的有效性。

Jan, 2022

使用生成预训练转换器进行多语言自动翻译到英语的机器翻译

使用本地生成预训练转换器（GPT）模型进行零 - shot 黑盒多自然语言翻译成英文文本，评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。

Apr, 2024

预训练模型在多模式标题生成中的嫁接

本文提出了一种新方法，将预训练的视频 - 语言模型中的视频编码器嫁接到生成式的预训练语言模型上，并通过跨模态和内模态关系的一致性融合机制集成不同组件，以实现多模标题的生成。经过实验证明，嫁接模型在从实际应用程序收集的全新数据集上取得了强大的结果。

Nov, 2022

利用多语言序列到序列预训练技术在文本生成与理解中弥合跨语言差距

本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型（multilingual Seq2Seq PLMs) 的性能的方法，实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART，可以缩小跨语言句子表示的欧几里得距离，并且在计算成本方面没有太多的增加。

Apr, 2022

使用适配器将 BERT 整合到并行序列解码中

本研究提出了一种通过加入轻量级适配器模块在 BERT 编码器和解码器之间 fine-tuning 来应对语言生成任务的问题，并在神经机器翻译任务上验证了该方法的有效性。

Oct, 2020

自监督图层掩蔽预训练用于图到文本生成

该论文提出了使用图形遮盖的预训练策略来提高图到文本生成任务中预训练模型的效果，该方法取得了 WebNLG+2020 和 EventNarrative 数据集上的最新最好成果，并在低资源设置中表现出非常有效的结果。

Oct, 2022

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

针对无监督神经机器翻译，提升预训练语言模型的词汇能力

本文介绍了一种基于子词嵌入的双语掩码语言模型预训练方法，应用于无监督神经机器翻译和双语词汇归纳任务中均取得了较好的性能表现。

Mar, 2021

关于单语表示的跨语言转移性

新颖的跨语言转移学习方法 - 从单语言模型到新语言，通过学习一个新的词嵌入矩阵来实现，该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。

Oct, 2019