使用预训练通用语音模型的参数高效阿拉伯语方言识别学习方法

May, 2023

使用预训练通用语音模型的参数高效阿拉伯语方言识别学习方法

A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model

Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Narsis A. Kiani, David Gomez-Cabrero...

TL;DR本文探讨了使用 Parameter-Efficient-Learning 技术将一种通用语音模型重新用于阿拉伯方言识别。通过在预训练设置下引入可训练的特征等不同设置来设计了多层编码器 - 解码器 GSM 架构，包括残差适配器和模型重新编程。针对阿拉伯语言中单词的发音和拼写变化大的问题，设计了标记级映射技术来为 GSM 调节阿拉伯方言识别。在 ADI-17 数据集上，通过普通的微调方法，实现了新的最先进准确率。我们进一步采用 PEL 方法降低了训练预算，只使用了额外网络可训练参数的 2.5% 就达到了与微调相当的准确率。我们的研究表明，使用开源代码和预训练模型，可以在数据集较小和计算资源有限的情况下进行阿拉伯方言识别。

Abstract

In this work, we explore parameter-efficient-learning (PEL) techniques to repurpose a General-Purpose-Speech (GSM) model for Arabic dialect identification (ADI). Specifically, we investigate different setups to incorporate trainable features into a →

parameter-efficient-learning arabic dialect identification general-purpose-speech model multi-layer encoder-decoder state-of-the-art accuracy

发现论文，激发创造

文本朗读口音自适应的参数高效学习

本文采用参数效率学习（PEL）技术，基于最优传输（OT）理论，引入无监督损失来最大化源域和目标域之间的差异，建立一个资源高效的低资源口音自适应文本到语音（TTS）模型，提高 Mandarin 口音自适应的自然度和性能的实验结果证明了该方法的竞争性。

May, 2023

又一个阿拉伯方言识别模型

本篇论文描述了一个用于阿拉伯语的口语方言识别 (ADI) 模型，该模型在两个基准数据集 ADI-5 和 ADI-17 上始终表现优于先前发表的结果。我们探索了两种不同的架构变体：ResNet 和 ECAPA-TDNN，以及两种类型的声学特征：MFCC 和从预训练的自监督模型 UniSpeech-SAT Large 提取的特征，以及所有四个变体的融合。我们发现，ECAPA-TDNN 网络表现优于 ResNet，而具有 UniSpeech-SAT 特征的模型远远优于具有 MFCC 特征的模型。此外，所有四个变体的融合一致优于单个模型。我们的最佳模型在两个数据集上的准确率分别为 84.7% 和 96.9%，超过了先前报道的结果。

Oct, 2023

用于多语言 ASR 的参数高效语言扩展框架

基于架构的语言扩展框架被提出来解决多语言演讲识别模型（MASR）的持续学习和参数高效的微调（PEFT）方法，提高了在不同语言间的转换能力。

Jun, 2024

利用参数高效的迁移学习进行多语言文本到语音调整

在多种语言环境中，为了有效地合成语音，开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中，将参数高效的迁移学习方法（如适配器和超网络）与 TTS 架构集成的方法，并在实验中证明这种方法在性能上能够与全面微调方法相媲美甚至更好，参数数量仅为总参数的约 2.5%。

Jun, 2024

面向阿拉伯方言变异鲁棒性的参数和数据高效连续预训练

在使用多语言语言模型进行低资源和高资源语言的任务中，阿拉伯语的方言差异引起了广泛关注。本文采用 mBERT 预训练和两种持续预训练方法，证明这些方法都可以帮助提高方言分类任务的性能。

Nov, 2022

参数高效微调与适配器

该研究介绍了一种新的适应方法，使用 UniPELT 框架作为基础，并添加了 PromptTuning 层，从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移，无需重新训练基础模型参数。通过对三个不同数据集进行评估，研究结果表明，该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当，而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担，还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力，为参数高效微调的未来研究方向提供了有益的提示。

May, 2024

参数高效的长尾识别

通过引入 PEL 方法，该研究通过少于 20 个时期的微调，无需额外数据即可适应长尾识别任务，并通过在分类器初始化中采用 CLIP 文本编码器的新颖技术解决了过度拟合问题，从而持续优于之前的最佳方法。

Sep, 2023

阿拉伯语方言识别的鲁棒性研究

通过自监督学习模型、迁移学习和直接分类器，对阿拉伯语方言识别系统进行评估，研究其在领域漂移情况下的鲁棒性，并发现自我训练虽能减轻此类挑战，但在实际应用中可能不足够。

Jun, 2023

PEA-Diffusion: 非英文文本到图像生成中的参数高效适配器与知识蒸馏

基于知识蒸馏的轻量级参数效率适配器 (PEA) 的训练方法可用于实现非英语文本到图像的生成，并在跨语言文本到图像生成的下游任务中获得重要结果。

Nov, 2023

UniPELT: 一种统一的参数效率语言模型调节框架

该研究提出了 UniPELT 框架，将不同的 PELT 方法作为子模块，并学习通过门控机制激活最适合当前数据或任务设置的子模块。在 GLUE 基准测试中，UniPELT 相对于其单独包含的最佳 PELT 方法都能够获得 1-4％的收益，并甚至在不同设置下优于 fine-tuning。此外，UniPELT 通常超过单个子模块在每个任务上单独使用的最佳性能上界，表明多个 PELT 方法的混合可能本质上更有效。

Oct, 2021