面向多语言大语言模型的平行语料利用方法

Jun, 2024

面向多语言大语言模型的平行语料利用方法

A Recipe of Parallel Corpora Exploitation for Multilingual Large Language Models

Peiqin Lin, André F. T. Martins, Hinrich Schütze

TL;DR通过对平行语料库进行优化，可以提高多语言大型语言模型的性能，研究结果表明，过滤嘈杂的翻译是有效利用平行语料库的关键。

Abstract

Recent studies have highlighted the potential of exploiting parallel corpora to enhance multilingual large language models, improving performance in both bilingual tasks, e.g., machine translation, and general-pu

parallel corpora multilingual large language models training objectives corpus quality model size

发现论文，激发创造

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

通过仅使用平行数据训练的大型语言模型研究翻译能力

本研究引入了 PLUME（Parallel Language Model），该模型是由三个 2B LLMs 组成，采用不同词汇量（32k、128k 和 256k），并且完全基于加泰罗尼亚语为中心的平行语料进行训练。这些模型在 16 个有监督翻译方向和 56 个零样例下的翻译性能与之前的编码解码架构相当。利用这些模型，我们对 LLMs 的翻译能力进行了全面调查，探究其性能、提示的不同元素以及跨语言表示空间的影响。

Jun, 2024

使用多语言句子嵌入进行基于边际的平行语料库挖掘

提出一种基于多语言句子嵌入的平行语料库过滤新方法，通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性，将结果与现有方法进行比较，结果表明该方法显著提高了翻译自动化水平。

Nov, 2018

跨语言迁移学习中平行数据的作用

本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果；使用这些数据解决一些下游任务的表现。作者发现，即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助，但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类，并可以更大程度地利用单语数据进行多语言建模。

Dec, 2022

双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译

展示了一种利用公开的课程资料进行平行语料挖掘的框架，通过动态规划的句子对齐算法和机器翻译相似度，达到了 96% 的句子对齐 F1 分数，并通过机器翻译实验证明，挖掘到的语料能提高课程讲稿翻译的质量。

Nov, 2023

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

使用单语语料库进行神经机器翻译

本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模，结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下，相较于短语和层级翻译，可以提高高达 1.96 和 1.59 的 BLEU 值，同时也适用于高资源语言，例如捷克语 - 英语和德语 - 英语，并成功提高了 0.39 和 0.47 个 BLEU 分数。

Mar, 2015

PARADISE：利用平行数据进行多语言序列到序列预训练

该研究介绍了 PARADISE 方法，通过将多语言字典和平行语料库用于训练模型的噪声序列中，取得了与其他模型相当、计算成本更低的 2.0 BLEU 点平均提升和 6.7 准确度点的跨语言自然语言推理和机器翻译实验结果。

Aug, 2021