基于最优输运的可解释性发音障碍者语音适应

Mar, 2022

基于最优输运的可解释性发音障碍者语音适应

Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport

Rosanna Turrisi, Leonardo Badino

TL;DR本文提出一种基于最优传输的无监督多源域自适应算法 ——MSDA-WJDOT，用于解决难以识别的发音障碍语音命令识别中通过对多个说话人的数据进行训练以进行说话人自适应的特定问题。该方法相对于其他现有的 SA 方法具有可解释性模型，可用于诊断发音障碍，不需要任何专门的培训，并在发音障碍的诊断中取得 95% 的准确率。

Abstract

This work addresses the mismatch problem between the distribution of training data (source) and testing data (target), in the challenging context of dysarthric speech recognition. We focus on speaker adaptation (

speaker adaptation multi-source domain adaptation optimal transport dysarthric speech recognition dysarthria diagnosis

发现论文，激发创造

高斯混合模型与最优输运在多源域自适应中的轻量化、优化、快速

多源领域自适应是迁移学习中的任务之一，本文提出了基于最优传输和高斯混合模型的新框架，在图像分类和故障诊断两个领域中，通过 GMM-WBT 和 GMM-DaDiL 策略实现多源领域自适应，显示出在提高性能的同时更快速、参数更少。

Apr, 2024

在 Wasserstein 空间中通过数据集字典学习进行多源领域适应

该研究论文提出了一种基于字典学习和最优输运的多源域自适应框架，通过将每个域表示为字典原子的经验分布的 Wasserstein 质心，提出了 DaDiL 算法来学习原子分布和质心坐标矩阵，并在目标领域进行重建和集成方法的实验评估，在三个基准测试中提升了分类性能。最后，证明了学习原子的 Wasserstein 凸包内的插值数据能够推广到目标域。

Jul, 2023

通过对抗性说话者适应实现发音不清语音重建中说话者身份的保留

提出了一种基于 adversarial speaker adaptation 的多任务学习策略，主要任务是 fine-tune 演讲者编码器以有效捕捉身份相关的信息，并通过应用对抗性训练来规范重建语音的分布，以避免引入异常发言模式。结果表明，该方法可在保持语音自然度的同时实现增强的演讲者相似性。

Feb, 2022

部分耦合的最优传输在口语认别中的应用

本论文提出了基于部分最优传输的联合分布对齐模型（POT），以降低不同领域之间的差异，提高跨域口语识别（SLID）系统的性能，并在 SLID 任务上进行了实验证明了 POT 模型显著提高了模型性能。

Mar, 2022

利用动态联合分布适应改进的说话人无关语音情感识别

多说话人情感识别中，使用 Dynamic Joint Distribution Adaptation 方法解决来自不同说话人的多领域数据中的分布偏移问题，并在面对新说话人数据时获得更好的性能。

Jan, 2024

FMDA-OT：通过最优传输进行联邦多源域适应

通过多源领域自适应的合作性框架，使用最优传输分别进行源领域自适应和目标领域自适应，并利用中央化联合学习架构协同多个源的模型，解决领域自适应中的数据隐私问题。

Apr, 2024

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

基于教师 - 学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师 / 学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017

现代希腊语语音识别无监督域自适应的样本效率研究

本文提出了基于源域自监督的 M2DS2 策略用于大型预训练语音模型的微调，并在希腊语 ASR 系统中测试表现，结果显示相比其他基准线算法，M2DS2 在跨域适应中具有显著优势。

Dec, 2022

多源领域自适应遇上数据集蒸馏通过数据集字典学习

该论文探讨了机器学习中两个问题的交集：多源领域适应 (MSDA) 和数据集精炼 (DD)。通过采用之前 MSDA 领域的作品以及 DD 方法的分布匹配，在四个基准测试中进行了深入的实验，表明即使每类仅有 1 个样本，也能够获得最先进的适应性能。

Sep, 2023