OFA：一种为高效大规模多语言持续预训练初始化未见子词嵌入的框架

Nov, 2023

OFA：一种为高效大规模多语言持续预训练初始化未见子词嵌入的框架

OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining

Yihong Liu, Peiqin Lin, Mingyang Wang, Hinrich Schütze

TL;DR提出了一种新颖的方法 One For All (Ofa)，通过智能地初始化目标语言中看不见的子词嵌入，从而高效有效地将预训练语言模型（PLMs）适应于多种语言，并通过外部的多语言词嵌入和矩阵分解技术提高效率和性能。

Abstract

pretraining multilingual language models from scratch requires considerable computational resources and substantial training data. Therefore, a more efficient method is to adapt existing pretrained language models (PLMs) to new languages via →

pretraining multilingual language models vocabulary extension embedding parameters one for all (ofa)crosslingual transfer

发现论文，激发创造

ANGOFA：利用 OFA 嵌入初始化和合成数据的安哥拉语言模型

通过引入四个针对安哥拉语言进行微调的针对预先训练语言模型（PLM）进行定制的 PLM，采用多语言自适应微调（MAFT）方法，本文调查了在下游任务中通过信息嵌入初始化和合成数据来增强 MAFT 模型性能的作用，将基线模型在 SOTA AfroXLMR-base（通过 MAFT 开发的）和 OFA（有效的嵌入初始化）上分别提高了 12.3 和 3.8 个百分点。

Apr, 2024

通过多语言自适应微调将预训练语言模型改进到非洲语言

本文通过多语言自适应微调方法，改进了前馈神经网络 (AfriBERTa 和 XLM-R) 模型，使其适配 17 种最常用的非洲语言及其他 3 种在非洲大陆广泛使用的高资源语言，在 NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性，且需要的磁盘空间明显少于单个语言的自适应微调方法。同时，本文的适配模型还能够改善参数效率微调方法的零 - shot 跨语言转移能力。

Apr, 2022

嵌入结构的重要性：比较将多语言词汇适应到新语言的方法

本研究提出了几种简单的技术，通过替换跨语言词汇为紧凑的特定语言词汇来改善在低资源语言中的性能，以及基于脚本子分布的嵌入重初始化技术在适应多语言模型方面与依赖于辅助模型获得的相似度分数的技术（如焦点方法）相媲美。

Sep, 2023

专注：有效的嵌入初始化策略用于针对单一语言进行预训练的多语言模型优化

使用高资源语言预训练的模型权重作为启动可以降低获取低资源语言高质量语言模型所需的数据和计算量，为了适应新语言，需要调整预先训练的词汇表和嵌入。本文研究了多语言源模型设置，提出了 FOCUS - Fast Overlapping Token Combinations Using Sparsemax 一种嵌入初始化方法，该方法在适应 XLM-R 时优于先前的方法，FOCUS 将新添加的令牌表示为预训练和新词汇表重叠的令牌组合。重叠的令牌是基于辅助令牌嵌入空间中的语义相似性选择的。

May, 2023

通过主动遗忘预训练以提高语言可塑性

本文提出使用主动遗忘机制作为预训练过程中的一种简单方法，以创建能够快速适应新语言的 PLMs。实验证明，与标准模型相比，在资源匮乏的情况下，使用遗忘机制的预先训练模型不仅在语言适应过程中表现出更快的收敛速度，而且在特别是对于与英语不同的语言来说表现更佳。

Jul, 2023

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

参数高效的鲁棒性全语种持续学习微调

研究 Continual Multilingual Learning 的问题，提出使用 parameter-efficient finetuning 更新 multilingual model 来减少语言特异性的遗忘，同时提高跨语言转移能力，通过 LAFT-URIEL pipeline 来改善支持语言的性能

Sep, 2022

使用参数高效迁移学习探索语言模型的越界鲁棒性

本研究系统地探讨了在预训练语言模型（Pre-trained Language Models）规模扩大或转移方法改变时，检测样本分布变化的能力如何随之改变，着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。

Jan, 2023

AfroLM：一种基于自主学习的多语言预训练语言模型，适用于 23 种非洲语言

本文提出了 AfroLM，这是一个利用自主主动学习（active learning）算法，仅仅用了比现有基准数据集小 14 倍的数据集从头开始预训练的跨 23 种非洲语言的多语言语言模型。与现有的大多数跨语言预训练模型相比，在各种 NLP 后续任务中，如命名实体识别、文本分类和情感分析等方面，AfroLM 取得了更好的优化和性能。

Nov, 2022

多视角压缩表示与低资源微调的鲁棒性研究

本文提出了一种新颖的方法，通过在预训练语言模型的隐藏表示上操作，通过将自编码器插入到 PLM 的隐藏层之间，将以前层的激活转换为多视图压缩表示，然后输入到上层，以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。

Nov, 2022