OFA:一种为高效大规模多语言持续预训练初始化未见子词嵌入的框架
通过引入四个针对安哥拉语言进行微调的针对预先训练语言模型(PLM)进行定制的 PLM,采用多语言自适应微调(MAFT)方法,本文调查了在下游任务中通过信息嵌入初始化和合成数据来增强 MAFT 模型性能的作用,将基线模型在 SOTA AfroXLMR-base(通过 MAFT 开发的)和 OFA(有效的嵌入初始化)上分别提高了 12.3 和 3.8 个百分点。
Apr, 2024
本文通过多语言自适应微调方法,改进了前馈神经网络 (AfriBERTa 和 XLM-R) 模型,使其适配 17 种最常用的非洲语言及其他 3 种在非洲大陆广泛使用的高资源语言,在 NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性,且需要的磁盘空间明显少于单个语言的自适应微调方法。同时,本文的适配模型还能够改善参数效率微调方法的零 - shot 跨语言转移能力。
Apr, 2022
本研究提出了几种简单的技术,通过替换跨语言词汇为紧凑的特定语言词汇来改善在低资源语言中的性能,以及基于脚本子分布的嵌入重初始化技术在适应多语言模型方面与依赖于辅助模型获得的相似度分数的技术(如焦点方法)相媲美。
Sep, 2023
使用高资源语言预训练的模型权重作为启动可以降低获取低资源语言高质量语言模型所需的数据和计算量,为了适应新语言,需要调整预先训练的词汇表和嵌入。本文研究了多语言源模型设置,提出了 FOCUS - Fast Overlapping Token Combinations Using Sparsemax 一种嵌入初始化方法,该方法在适应 XLM-R 时优于先前的方法,FOCUS 将新添加的令牌表示为预训练和新词汇表重叠的令牌组合。重叠的令牌是基于辅助令牌嵌入空间中的语义相似性选择的。
May, 2023
本文提出使用主动遗忘机制作为预训练过程中的一种简单方法,以创建能够快速适应新语言的 PLMs。实验证明,与标准模型相比,在资源匮乏的情况下,使用遗忘机制的预先训练模型不仅在语言适应过程中表现出更快的收敛速度,而且在特别是对于与英语不同的语言来说表现更佳。
Jul, 2023
本文介绍了一种基于矩阵分解和词汇重叠的方法,能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本,并且在这些语言中能够获得显著的性能提升。
Dec, 2020
研究 Continual Multilingual Learning 的问题,提出使用 parameter-efficient finetuning 更新 multilingual model 来减少语言特异性的遗忘,同时提高跨语言转移能力,通过 LAFT-URIEL pipeline 来改善支持语言的性能
Sep, 2022
本研究系统地探讨了在预训练语言模型(Pre-trained Language Models)规模扩大或转移方法改变时,检测样本分布变化的能力如何随之改变,着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。
Jan, 2023
本文提出了 AfroLM,这是一个利用自主主动学习(active learning)算法,仅仅用了比现有基准数据集小 14 倍的数据集从头开始预训练的跨 23 种非洲语言的多语言语言模型。与现有的大多数跨语言预训练模型相比,在各种 NLP 后续任务中,如命名实体识别、文本分类和情感分析等方面,AfroLM 取得了更好的优化和性能。
Nov, 2022
本文提出了一种新颖的方法,通过在预训练语言模型的隐藏表示上操作,通过将自编码器插入到 PLM 的隐藏层之间,将以前层的激活转换为多视图压缩表示,然后输入到上层,以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。
Nov, 2022