专注：有效的嵌入初始化策略用于针对单一语言进行预训练的多语言模型优化

May, 2023

专注：有效的嵌入初始化策略用于针对单一语言进行预训练的多语言模型优化

FOCUS: Effective Embedding Initialization for Specializing Pretrained Multilingual Models on a Single Language

Konstantin Dobler, Gerard de Melo

TL;DR使用高资源语言预训练的模型权重作为启动可以降低获取低资源语言高质量语言模型所需的数据和计算量，为了适应新语言，需要调整预先训练的词汇表和嵌入。本文研究了多语言源模型设置，提出了 FOCUS - Fast Overlapping Token Combinations Using Sparsemax 一种嵌入初始化方法，该方法在适应 XLM-R 时优于先前的方法，FOCUS 将新添加的令牌表示为预训练和新词汇表重叠的令牌组合。重叠的令牌是基于辅助令牌嵌入空间中的语义相似性选择的。

Abstract

Using model weights pretrained on a high-resource language as a warm start can reduce the need for data and compute to obtain high-quality language models in →

high-resource language warm start low-resource languages multilingual source model embedding initialization

发现论文，激发创造

嵌入结构的重要性：比较将多语言词汇适应到新语言的方法

本研究提出了几种简单的技术，通过替换跨语言词汇为紧凑的特定语言词汇来改善在低资源语言中的性能，以及基于脚本子分布的嵌入重初始化技术在适应多语言模型方面与依赖于辅助模型获得的相似度分数的技术（如焦点方法）相媲美。

Sep, 2023

低资源跨语言迁移的词汇扩展

通过在不同角度研究目标词汇规模、初始化方法以及可用于适应的目标数据量，我们在语料资源有限的环境中发现，基于简单启发式的词向量初始化方法更高效、更稳定，能够在目标词汇规模和适应数据变化时胜过常用的随机初始化和更复杂依赖外部数据和模型的最先进方法。

Jun, 2024

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

Tik-to-Tok：一个逐令牌翻译语言模型的嵌入初始化策略用于有效语言适应

通过模型转换策略将高资源单语言模型转化为新的目标语言，从而在低资源语言和中等资源语言上实现了新的最先进性能。

Oct, 2023

使用词汇扩展提高预训练多语言模型的性能

本文研究了两种方法（联合映射和混合映射）来解决预先训练的 BERT 多语言模型中的词汇表大小和词汇缺失问题，并在多个任务中进行了实验。结果表明，使用混合映射更有前途。这是首次在多语言环境下试图解决词汇缺失问题。

Sep, 2019

一种简单而有效的方法来提高零样本跨语言迁移学习

本文提出一种无监督的跨语言嵌入转换方法，其中使用 Embedding-Push、Attention-Pull 和 Robust targets 来处理语言嵌入之间的聚类差异，以提高跨语言转换的可靠性。实验结果表明，该方法在零 - shot 跨语言文本分类任务上取得显着优于以往的工作，可以获得更好的多语言对齐。

Oct, 2022

WECHSEL: 用于对单语言模型进行跨语言转移的子词嵌入有效初始化

本论文介绍了一种称为 WECHSEL 的新型方法，它可以在不同语言之间高效地转移预训练语言模型，通过使用基于子词的标记化和多语言静态词嵌入，WECHSEL 可以解决传统方法中在训练新语言时昂贵和耗时的问题，同时提高了跨语言参数传递的效果和可访问性。

Dec, 2021

通过自监督表示混合和嵌入初始化最大化跨语言 TTS 适应的数据效率

本文介绍了一种有效的迁移学习框架，用于在文本转语音系统中进行语言适应，重点是通过使用尽可能少的标记和未标记数据实现语言适应。实验结果表明，我们的框架能够仅使用 4 个标记数据和 15 分钟未标记数据合成未知语言的可懂语音，还能在可获得更多数据的情况下超越传统技术，凸显了我们的高效语言适应框架的潜力。

Jan, 2024

使用锚点和一系列相关语言的多语言词嵌入：面向低资源语言

通过一种基于语言链的新方法构建多语言词嵌入（MWEs），该方法通过中间相关语言弥合远源和目标的差距。我们通过在语言链中逐个添加每种语言，从资源丰富的源语言开始，构建 MWEs。我们将半联合双语方法扩展到多种语言，以消除以前工作的主要弱点，即独立训练的单语词嵌入，并使目标语言围绕多语言空间进行锚定。我们在涉及 4 个非常低资源（<5M 令牌）和 4 个适度低资源（<50M）目标语言的 4 个语言家族的双语词典感应中评估了我们的方法，显示了两个类别的改进性能。此外，我们的分析揭示了中间语言的高质量嵌入的重要性，以及利用多语言空间中所有语言的锚点的重要性。

Nov, 2023

针对低资源语言家族的定向多语言适应

对于低资源语言，通过针对性的多语言训练，依照乌拉尔语系为案例进行调整，通过实验证明适应性的词汇大小对于低资源语言的影响相对较小，低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微，从而为特定语境中的语言适应性提供了新的最佳实践。

May, 2024