如何将预训练的多语言模型应用至1600种语言
本文研究了两种方法(联合映射和混合映射)来解决预先训练的BERT多语言模型中的词汇表大小和词汇缺失问题,并在多个任务中进行了实验。结果表明,使用混合映射更有前途。这是首次在多语言环境下试图解决词汇缺失问题。
Sep, 2019
本文介绍了一种基于矩阵分解和词汇重叠的方法,能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本,并且在这些语言中能够获得显著的性能提升。
Dec, 2020
探索是否可以在未见过的语言上进行高级语义任务的零-shot学习。通过AmericasNLI,测试了零-shot和翻译法等多种方法,结果发现XLM-R的零-shot表现很差,但通过持续预训练和对假设模型的考虑,有所提高。意外的是,用翻译不好的数据训练的表现最好。
Apr, 2021
本研究旨在探究利用领域自适应预训练的方法,结合多语言语料库来同时训练一个领域特定和多语言的语言模型,从而提高目标领域内不同语言任务的文本建模能力。研究结果表明,用这种模型在生物医学命名实体识别和金融句子分类等多个领域特定数据集上进行测试,可以比一般的多语言模型表现更好,接近于单语言情况下的性能表现。
Sep, 2021
本研究旨在探讨预训练语言模型在不同数量、相关性条件下的零样本学习能力,并发现通过模型适应,增加预训练语言数量能够提高语言模型的性能。
Mar, 2022
本文通过多语言自适应微调方法,改进了前馈神经网络(AfriBERTa和XLM-R)模型,使其适配17种最常用的非洲语言及其他3种在非洲大陆广泛使用的高资源语言,在NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性,且需要的磁盘空间明显少于单个语言的自适应微调方法。同时,本文的适配模型还能够改善参数效率微调方法的零-shot跨语言转移能力。
Apr, 2022
本篇论文通过对一个多语种预训练语言模型XGLM-7B进行微调并给出指示进行多语种翻译的实验,展示了预训练语言模型在翻译任务中的较强能力,并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐,研究结果可启发模型改进。
May, 2023
本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中,避免灾难性遗忘和标记器效率低下的问题,并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明,我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面,能够达到比开源模型更好的性能,同时对英语的回归影响很小。
Nov, 2023
对于低资源语言,通过针对性的多语言训练,依照乌拉尔语系为案例进行调整,通过实验证明适应性的词汇大小对于低资源语言的影响相对较小,低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微,从而为特定语境中的语言适应性提供了新的最佳实践。
May, 2024