利用词汇匹配从高资源语言传递 BERT 的能力到低资源语言

Feb, 2024

利用词汇匹配从高资源语言传递 BERT 的能力到低资源语言

Transferring BERT Capabilities from High-Resource to Low-Resource Languages Using Vocabulary Matching

Piotr Rybak

TL;DR通过词汇匹配，将 BERT 的能力从高资源语言转移到低资源语言，以改善 BERT 模型在低资源语言上的性能，从而使得高级语言理解模型更加普及化。

Abstract

pre-trained language models have revolutionized the natural language understanding landscape, most notably bert (Bidirectional Encoder Representations from Transformers). However, a significant challenge remains

pre-trained language models bert low-resource languages vocabulary matching advanced language understanding models

发现论文，激发创造

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

神经机器翻译跨低资源、相关语言的迁移学习

基于 Byte Pair Encoding 的转移学习方法对低资源语言进行神经翻译的改进，提高了翻译的质量。

Aug, 2017

从英语到外语：迁移预训练语言模型

本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法，使用单个 GPU，一天内可以获得一种新的外语 BERT 基础模型，并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。

Feb, 2020

在语言相似度高的情况下适应单语模型：数据匮乏的问题

本篇论文重点研究了如何使用尽可能少的数据实现零 - shot 迁移学习，并探讨了语言相似度在该过程中的影响。研究人员利用两种低语言资源语言重新训练了四个基于 BERT 的模型的词汇层，同时对模型的源语言进行了独立的 POS 标记任务的微调。研究结果发现，通过将新的词汇层和微调后的 Transformer 层相结合，即使在仅有 10MB 的数据的情况下，也能显著提高两种目标语言任务的性能。值得注意的是，在目标语言被包含在多语言模型中时，单语 BERT-based 模型在重新训练词汇层后的下游任务表现要高于多语 BERT。

May, 2021

将多语言 BERT 扩展到低资源语言

本研究提出一种简单而有效的方法，扩展多语言 BERT (E-BERT)，使其可以为任何新语言提供帮助，并在 27 种语言上进行命名实体识别（NER）实验，结果表明我们的方法对已包含在 M-BERT 中的语言平均 F1 值提高了 6％，对新语言提高了 23％的 F1 值。

Apr, 2020

低资源神经机器翻译的简单迁移学习

本研究提出了一种简单的迁移学习方法，通过训练 “父模型” 并在低资源语言对上进行训练，取代了原有的训练语料库，成功地提高了针对不同语言对的机器翻译性能。

Sep, 2018

一种简单而有效的方法来提高零样本跨语言迁移学习

本文提出一种无监督的跨语言嵌入转换方法，其中使用 Embedding-Push、Attention-Pull 和 Robust targets 来处理语言嵌入之间的聚类差异，以提高跨语言转换的可靠性。实验结果表明，该方法在零 - shot 跨语言文本分类任务上取得显着优于以往的工作，可以获得更好的多语言对齐。

Oct, 2022

利用预训练语言模型进行低资源摘要

利用自注意力变换器模型（mBERT, mT5）以及构建新的基准数据集（76.5k 的文章摘要对），在资源有限的语言乌尔都语中，提出了一个自适应低资源摘要方法，能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。

Oct, 2023

穿越博斯普鲁斯海峡：通过低资源语言适应和基准测试推进土耳其大型语言模型

通过研究低资源语言，对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析，以进一步推进低资源语境下大型语言模型 (LLMs) 的发展，使自然语言处理 (NLP) 的益处更广泛可及。

May, 2024

使用双语词典进行标注低资源语言的模型转移

本研究提出了一种新颖的基于跨语言词向量的神经网络模型，通过高覆盖的双语词典训练，利用跨语言模型转移的方法，针对低资源语言的注释预测问题提出了解决方案，并通过多种主动学习启发式方法，提升了该方法的性能。

May, 2017