从双语对齐到多语对齐:无监督平行文本挖掘
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。
May, 2021
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
本文研究了两种多语言文本学习方法,即 alignment 和 joint training,并提出了将这两种方法结合的框架。实验证明,该框架改善了现有方法的局限性,在 MUSE 双语词汇诱导(BLI)基准测试中性能优于现有方法,并在 CoNLL 跨语言 NER 基准测试上产生了最新的结果。
Oct, 2019
通过利用翻译句子对齐内部句子表示,并通过回答不同语言的提示问题对齐模型输出,我们提出了一个简单而有效的对齐框架,显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明,它导致了更好的多语言模型的内部多语言表示分布。
Nov, 2023
本文研究了多语言语言模型的跨语言转移,并通过证据表明,对翻译句子中的单词对进行重新对准可以在某些情况下显著提高跨语言转移,特别是使用双语词典而不是 FastAlign 提取对齐对的任务中。
Jun, 2023
提出了一种基于单语语料的机器翻译方法,该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中,从而学习翻译而不使用任何标记数据,该方法在两种语言对的两个广泛使用的数据集上表现出色。
Oct, 2017
提出了一个概率框架,用于多语言神经机器翻译,特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项,自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明,在大多数方向上,我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上,BLEU 得分比最先进的无监督模型高,并且在罗马尼亚语 - 英语方向上,我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。
Feb, 2020
本文提出了 EcXTra 方法,使用预训练模型,在 40 种语言间进行多语言微调,使用双向回译来生成合成的语言平行数据,达到了无监督 NMT 的翻译效果。该方法在处理低资源语言上表现出优秀的翻译性能,尤其在英语到哈萨克语的翻译任务上达到了新的最先进水平。
Sep, 2022
本文通过无监督的方式对单语词嵌入空间进行对齐,构建两种语言之间的双语词典,旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好,且无需使用字符信息。
Oct, 2017
新颖的跨语言转移学习方法 - 从单语言模型到新语言,通过学习一个新的词嵌入矩阵来实现,该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。
Oct, 2019