本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究,结果显示这些方法可以显著提高性能,特别是在最低资源的情况下,并证明了模型的预训练数据与目标语言变体之间的关系的重要性。
Sep, 2020
本研究针对低资源语言建设有效的口语处理系统提出了一个跨语言自适应训练框架,包括持续和任务自适应训练,以适应基于预训练模型的自然语言处理任务,采用英语预训练语言模型作为英语 - Pidgin 任务的强先验,取得了最高 2.38 的 BLEU 分数,加入正字法数据增强和反向翻译的任务自适应训练对模型性能有显著影响。
Jul, 2023
本研究旨在探究跨语言预训练模型的学习过程,发现该模型在语言内表现出较高的性能,复杂任务在低级语言技能前学习。添加不同的语言对跨语言转移的学习时机不同,并且最终模型层表现存在时间衰减现象,语言知识向网络底层传递。
May, 2022
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
May, 2024
多语言语言模型是否在不同语言之间共享抽象语法表示以及这些抽象语法表示是何时形成的?我们使用结构启动测试进行研究,发现跨语言结构启动效应在第二语言曝光不到 1M 标记的数据后就会早期显现,并讨论了数据污染、低资源转移以及多语言模型中抽象语法表示形成的意义。
Oct, 2023
本研究尝试将预训练的多语言 wav2vec 2.0 神经模型应用于研究极度濒危的阿伊努语,通过多语言微调和预训练对模型进行改进,结果显示继续预训练是适应新语言的最有效方法,并且利用类似语言的数据进行微调可以显著减少错误率。
Jan, 2023
通过利用语言自适应和任务自适应的预训练模型,本文针对非洲语言低资源性情感分析问题的特点,研究了基于预训练的语言模型的迁移学习方法,并发现将预训练模型适应到目标语言和任务上可以显著提高模型表现,选择具有积极转移增益的源语言可以避免干扰,这在多语言和跨语言设置中可以取得更好的结果。
Apr, 2023
通过对各种语言和预训练条件进行的实验比较表明,联合无监督预训练和微调是一种有效的方法,可以在各种语言上提高句法分析的性能并实现新的最先进的结果。
Dec, 2018
本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现:扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型,在质量分析中,我们的提出的 Bllossom 模型表现出优异的性能。
Mar, 2024
我们编译了最大的现有的跨语言翻译数据语料库,从多个来源收集了超过 450k 个样例,覆盖了 1.8k 种语言,以便进行跨语言转移和跨语言翻译生成的研究。然后,我们对这个语料库的部分内容进行大规模多语言模型预训练,并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力,同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6%,证明了跨语言转移对于资源稀缺的语言的有效性。