本文介绍了一种基于矩阵分解和词汇重叠的方法,能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本,并且在这些语言中能够获得显著的性能提升。
Dec, 2020
基于 Byte Pair Encoding 的转移学习方法对低资源语言进行神经翻译的改进,提高了翻译的质量。
Aug, 2017
本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法,使用单个 GPU,一天内可以获得一种新的外语 BERT 基础模型,并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。
Feb, 2020
本篇论文重点研究了如何使用尽可能少的数据实现零 - shot 迁移学习,并探讨了语言相似度在该过程中的影响。研究人员利用两种低语言资源语言重新训练了四个基于 BERT 的模型的词汇层,同时对模型的源语言进行了独立的 POS 标记任务的微调。研究结果发现,通过将新的词汇层和微调后的 Transformer 层相结合,即使在仅有 10MB 的数据的情况下,也能显著提高两种目标语言任务的性能。值得注意的是,在目标语言被包含在多语言模型中时,单语 BERT-based 模型在重新训练词汇层后的下游任务表现要高于多语 BERT。
May, 2021
本研究提出一种简单而有效的方法,扩展多语言 BERT (E-BERT),使其可以为任何新语言提供帮助,并在 27 种语言上进行命名实体识别(NER)实验,结果表明我们的方法对已包含在 M-BERT 中的语言平均 F1 值提高了 6%,对新语言提高了 23%的 F1 值。
Apr, 2020
本研究提出了一种简单的迁移学习方法,通过训练 “父模型” 并在低资源语言对上进行训练,取代了原有的训练语料库,成功地提高了针对不同语言对的机器翻译性能。
Sep, 2018
本文提出一种无监督的跨语言嵌入转换方法,其中使用 Embedding-Push、Attention-Pull 和 Robust targets 来处理语言嵌入之间的聚类差异,以提高跨语言转换的可靠性。 实验结果表明,该方法在零 - shot 跨语言文本分类任务上取得显着优于以往的工作,可以获得更好的多语言对齐。
Oct, 2022
利用自注意力变换器模型(mBERT, mT5)以及构建新的基准数据集(76.5k 的文章摘要对),在资源有限的语言乌尔都语中,提出了一个自适应低资源摘要方法,能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。
Oct, 2023
通过研究低资源语言,对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析,以进一步推进低资源语境下大型语言模型 (LLMs) 的发展,使自然语言处理 (NLP) 的益处更广泛可及。
May, 2024
本研究提出了一种新颖的基于跨语言词向量的神经网络模型,通过高覆盖的双语词典训练,利用跨语言模型转移的方法,针对低资源语言的注释预测问题提出了解决方案,并通过多种主动学习启发式方法,提升了该方法的性能。
May, 2017