通过单语语料库对跨语言语义进行对齐,增强多语言表示能力的 ERNIE-M 模型
本文介绍了一种面向多语言自然语言和编程语言的语言模型 ERNIE-Code,提供了通用跨语言预训练的两种方法,取得了很好的性能表现,包括零样本提示的跨语言代码摘要和文本翻译。
Dec, 2022
提出一种名为 ERNIE 2.0 的持续预训练框架,通过不断的多任务学习构建和学习预训练任务,以从训练语料库中提取词汇、句法和语义信息。实验结果表明,在包括 GLUE 基准测试中的 16 个任务(包括英文任务和中文中的几个常见任务)中,ERNIE 2.0 的表现优于 BERT 和 XLNet。已经在 https://github.com/PaddlePaddle/ERNIE 发布了源代码和预训练模型。
Jul, 2019
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。
May, 2021
该论文提出了一种半监督的方法来训练神经机器翻译模型,该方法使用标记数据和未标记数据的拼接,通过一个自编码器重建单语语料库,从而利用源语言和目标语言的单语语料库以及双语平行语料库从而在中英数据集上取得了显著的性能提升。
Jun, 2016
本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模,结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下,相较于短语和层级翻译,可以提高高达 1.96 和 1.59 的 BLEU 值,同时也适用于高资源语言,例如捷克语 - 英语和德语 - 英语,并成功提高了 0.39 和 0.47 个 BLEU 分数。
Mar, 2015
通过利用翻译句子对齐内部句子表示,并通过回答不同语言的提示问题对齐模型输出,我们提出了一个简单而有效的对齐框架,显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明,它导致了更好的多语言模型的内部多语言表示分布。
Nov, 2023
该研究提出了一种有效的并行语料库挖掘方法,使用双语句子嵌入进行训练,通过引入硬负例来实现。该方法是基于语义相似度的,结果表明该方法可以用于重建平行文本,从而训练出 NMT 模型,与使用原始数据训练的模型相差不大。
Jul, 2018
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
本文针对跨语言 NER 任务,提出了一种基于平行语料库的名词实体对齐模型,并在没有监督模型的情况下将 NER 从英语部分传递到目标语言中,以此获得更自然流畅和细微差别的数据集来提高模型性能,在 4 种目标语言的基准数据集上得到了具有竞争力的结果。
Jan, 2021