本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中,避免灾难性遗忘和标记器效率低下的问题,并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明,我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面,能够达到比开源模型更好的性能,同时对英语的回归影响很小。
Nov, 2023
该论文调查了关于多语言语言模型的研究,包括零样本迁移学习,预训练,跨语言和双语任务,展望了未来研究的方向。
Jul, 2021
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
探索是否可以在未见过的语言上进行高级语义任务的零 - shot 学习。通过 AmericasNLI,测试了零 - shot 和翻译法等多种方法,结果发现 XLM-R 的零 - shot 表现很差,但通过持续预训练和对假设模型的考虑,有所提高。意外的是,用翻译不好的数据训练的表现最好。
Apr, 2021
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
May, 2024
本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法,使用单个 GPU,一天内可以获得一种新的外语 BERT 基础模型,并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。
Feb, 2020
研究表明,在多语言数据集中使用语料库来微调预训练的多语言自然语言处理模型 (PLMs) 能够获得更高的性能,但是没有对单语言 PLMs 进行分析。此外,不同的编程语言之间的代码通常不能互换,我们调查了单语言和多语言 PLMs 对不同编程语言的影响,分析了超过一百个预训练模型和微调模型,结果表明,多语言 PLMs 具有更低的性能 - 时间比 (在微调期间的 BLEU,METEOR 或 MRR 分数),我们提出的目标编程语言选择策略能够在减少微调时间的同时在代码摘要和代码搜索任务中实现更高的性能,并且我们的策略在不同代码长度上表现良好。
Apr, 2022
对于低资源语言,通过针对性的多语言训练,依照乌拉尔语系为案例进行调整,通过实验证明适应性的词汇大小对于低资源语言的影响相对较小,低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微,从而为特定语境中的语言适应性提供了新的最佳实践。
通过在 100 种语言上使用超过 2TB 的 CommonCrawl 数据对基于 Transformer 的掩蔽语言模型进行大规模的预训练,该模型命名为 XLM-R,显著优于 mBERT,在跨语言基准测试中实现了 + 14.6%和 + 13%的平均准确性和 F1 分数,并改善了 10 个低资源语言的准确性,显示了前景。
Nov, 2019