使用自训练预训练语言模型进行零样本和少样本多方言阿拉伯序列标注

ACLJan, 2021

使用自训练预训练语言模型进行零样本和少样本多方言阿拉伯序列标注

Self-Training Pre-Trained Language Models for Zero- and Few-Shot Multi-Dialectal Arabic Sequence Labeling

Muhammad Khalifa, Muhammad Abdul-Mageed, Khaled Shaalan

TL;DR本研究提出在零或少量标注数据的情况下，通过自训练预训练语言模型，利用数据丰富的语言资源，提高数据匮乏语言变种的性能，以阿拉伯语序列标注为例，利用仅在现代标准阿拉伯语上微调的语言模型，预测多个方言阿拉伯语的命名实体和词性标注，表明自训练是有效的，并能在极少的标注数据下获得更好的效果。

Abstract

A sufficient amount of annotated data is usually required to fine-tune pre-trained language models for downstream tasks. Unfortunately, attaining labeled data can be costly, especially for multiple language varieties and dialects. We propose to self-train →

self-training pre-trained language models data-scarce varieties arabic sequence labeling zero-shot scenarios

发现论文，激发创造

自适应自我训练用于小样本神经序列标注

该研究提出了通过自训练和元学习技术解决多个自然语言处理任务中低标注数据带来的挑战的方法，并在六个基准数据集上实验证明了其在标注数据较少的情况下具有良好的效果。

Oct, 2020

使用预训练语言模型进行阿拉伯语及其方言的形态句法标注

该研究利用预训练转换器语言模型对不同形式的阿拉伯语进行形态句法标记，优于现有系统，在不同区域的阿拉伯语可获得显著改进，特别是在资源匮乏的情况下，利用其他高资源方言的数据进行微调，以及使用高质量的形态分析器作为外部语言资源是有益的。

Oct, 2021

自训练提高了面向任务的对话系统中 Few-shot 学习的预训练

研究通过自我训练的方法，利用大量未标记的对话数据进一步改进预先训练的模型，以应对高昂的对话系统不同模块的标注成本问题，并证明该方法在少量标记数据可利用时可以一致提高现有预先训练模型的性能。

Aug, 2021

MALM：混合增强语言建模实现零 - shot 机器翻译

本研究表明，在零样本机器翻译中，基于输入提示的大型模型不会出现离题语言错误，实验证明自监督预训练和数据增强对于零样本多语言机器翻译的效果显著。

Oct, 2022

自训练的零样本文本分类

本文提出一种基于自训练方法的插入式零样本文本分类技术，无需领域专业知识或经验，仅需要类别标签和无标记数据，可显著提高性能，适用于各种文本分类任务。

Oct, 2022

阿拉伯预训练语言模型中变体、大小和任务类型的相互作用

本文研究了阿拉伯语预训练语言模型的语言变体、数据量和微调任务类型对其效果的影响，结论表明预训练数据与微调数据的相似性对模型的性能更为重要。

Mar, 2021

重新审视自训练用于语言模型的小样本学习

本研究介绍了一种最先进的基于提示的少样本学习器 ——SFLM，该模型使用自训练技术来对语言模型进行微调，仅依赖于少量未标记的领域内数据，并在句子分类和句子对分类基准任务上优于其他最先进的监督和半监督对手。

Oct, 2021

面向阿拉伯方言变异鲁棒性的参数和数据高效连续预训练

在使用多语言语言模型进行低资源和高资源语言的任务中，阿拉伯语的方言差异引起了广泛关注。本文采用 mBERT 预训练和两种持续预训练方法，证明这些方法都可以帮助提高方言分类任务的性能。

Nov, 2022

零资源跨语言词性标注

零资源环境中的词性标注可以是一种有效的方法，当没有标记的训练数据可用时，特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法，并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言，法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论是，零资源语言中的映射对于预测词性标签是有益的。

Jan, 2024

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022