面向多语言大语言模型的平行语料利用方法
本文研究了两种方法(联合映射和混合映射)来解决预先训练的BERT多语言模型中的词汇表大小和词汇缺失问题,并在多个任务中进行了实验。结果表明,使用混合映射更有前途。这是首次在多语言环境下试图解决词汇缺失问题。
Sep, 2019
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用BERT的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在WMT 2018平行语料库过滤共享任务上的实验以及本文所提供的Web-crawled日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020
本文研究了在 mT5 预训练模型中加入平行数据对其性能的影响,结果表明:在预训练期间将多项任务结合进行语言建模,特别是机器翻译等目标任务,可以明显提高其在多语种和跨语种任务中的性能,但随着模型容量的增加,收益开始减少,这表明平行数据对较大的模型来说可能并不那么重要;同时,在有限的标记数据环境中,即使在较大的模型尺寸下,使用平行数据进行预训练仍然具有优势。
Jun, 2021
描述了我们构建跨越1000个语言翻译的实用机器翻译系统的努力,包括构建干净的数据集、使用监督并行数据训练的大规模多语言模型和单语数据集以及研究评估语言的限制和误差模式。
May, 2022
本研究提出了OneAligner模型,可用于训练多语言语料库中的平行句子,能够在只使用一种语言对进行训练的情况下,以跨语言的方式传递至低资源语言对,实现了对平行数据使用不到0.6%时依然能够达到8.0个点的准确度提高,同时表明平行数据规模对句子对齐任务的影响可能更重要。
May, 2022
本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果;使用这些数据解决一些下游任务的表现。作者发现,即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助,但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类,并可以更大程度地利用单语数据进行多语言建模。
Dec, 2022
该研究分析了多语言大型语言模型(MLLMs)的关键问题,包括语言不平衡、多语言对齐和固有偏差,探讨MLLMs的全球语言表示能力、偏见和挑战,并提出了有前景的研究方向。
Apr, 2024
通过在平行文本上对大型语言模型 (LLM) 进行微调,新的机器翻译范式已被证明能够胜过使用大量平行数据以监督方式训练的专用翻译系统,然而,对于大规模多语言机器翻译,是否需要对少数语言对进行专门的模型微调仍然不清楚。本研究通过对TOWER系列语言模型在132个来自多语言平行数据FLORES-200的翻译任务上进行实证评估,发现翻译微调即使对于零样本语言平均而言也会提高翻译质量,但其影响因所涉及的语言对而异。这些结果呼吁进一步研究以有效实现大规模多语言翻译。
May, 2024
本研究引入了PLUME(Parallel Language Model),该模型是由三个2B LLMs组成,采用不同词汇量(32k、128k和256k),并且完全基于加泰罗尼亚语为中心的平行语料进行训练。这些模型在16个有监督翻译方向和56个零样例下的翻译性能与之前的编码解码架构相当。利用这些模型,我们对LLMs的翻译能力进行了全面调查,探究其性能、提示的不同元素以及跨语言表示空间的影响。
Jun, 2024
该研究解决了以往对大型语言模型(LLMs)评估的单一性局限,提出了一个全面的多语种多任务基准P-MMEval。此基准通过选取合理的数据集,确保了在不同模型间的可区分性,并提供了一致的语言覆盖和并行样本,实验结果为未来研究提供了宝贵的参考。
Nov, 2024