用于反欺骗检测的预训练语音模型中隐藏嵌入的关注性合并

Jun, 2024

用于反欺骗检测的预训练语音模型中隐藏嵌入的关注性合并

Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection

Zihan Pan, Tianchi Liu, Hardik B. Sailor, Qiongqiong Wang

TL;DR本文研究了 WavLM 模型在反欺诈任务中的多层行为，并提出了一种注意力融合方法来利用分层隐藏嵌入，结果表明微调 WavLM 能够在 ASVspoof 2019LA、2021LA 和 2021DF 的评估集上分别达到 0.65%、3.50% 和 3.19% 的最佳等错误率，值得注意的是，我们发现 WavLM 大模型的早期隐藏 Transformer 层对反欺诈任务有显著贡献，并通过使用部分预训练模型实现了计算效率。

Abstract

self-supervised learning (SSL) speech representation models, trained on large speech corpora, have demonstrated effectiveness in extracting hierarchical speech embeddings through multiple transformer layers. Howe

self-supervised learning speech representation models hierarchical hidden embeddings anti-spoofing wavlm model

发现论文，激发创造

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

WavLM：用于完整语音处理的大规模自监督预训练

本篇论文提出了一种新的预训练模型 WavLM，通过联合学习掩蔽语音预测和去噪，利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序，使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力，同时也提高了对非 ASR 语音任务的潜力，其在 SUPERB 基准测试上取得了最先进的性能，并为各种语音处理任务带来了显着的改进。

Oct, 2021

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

将 WavLM 应用于语音情感识别

最近，人们对语音自我监督模型（SSL）在下游任务中的使用越来越关注。在大规模预训练模型通常优于从头开始训练的较小模型的情况下，人们对最佳微调策略的问题仍然很普遍。本文中，我们探讨了 WavLM Large 模型在 MSP Podcast Corpus 的语音情感识别任务中的微调策略。具体而言，我们进行了一系列实验，重点研究了来自话语中的性别和语义信息的使用。然后，我们总结了我们的发现，并描述了我们用于提交 Speech Emotion Recognition Challenge 2024 的最终模型。

May, 2024

自我监督的语音和说话者模型学到了什么？来自跨模型逐层分析的新发现

该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力，并发现具体层次的语音模型更专注于捕捉语言信息，而说话者模型则更注重对说话者表示的提炼。

Jan, 2024

利用大规模 ASR 模型，在自监督学习中追求说话者验证的有监督性能

自我监督学习在发音验证中表现出与有监督系统相近的性能，本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签，实现了语音表示学习中的有监督性能，取得了 0.99％的 EER，接近有监督基线 0.94％的 EER。

Jun, 2024

自监督语音模型在音频表示方面的功效

本研究提出融合自监督学习语音模型嵌入的集成框架，旨在探究其在音频和非语音任务中的表示能力，实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型，特别在面对细粒度音乐任务时也表现出强大的能力。

Sep, 2022

自监督学习用于语音识别中间层辅助训练

利用中间层监督自监督学习（ILS-SSL）对语音预训练模型进行优化，可以更好地集中于音频内容信息学习，从而实现识别性能的提高，并且在语言模型不被使用情况下，相对字错率下降 23.5%。

Dec, 2021

无缝语言扩展：增强自监督模型中的多语言掌握能力

我们提出了通过将 LoRA 整合到已有的自我监督模型中，实现新语言的自适应，并通过数据结合和重新聚类等保护策略来保持对已有和新语言的性能保持完整，实验证明该方法使 mHuBERT 应用于新语言（普通话）的 MOS 值增加 1.6，WER 相对值减少了 61.72%。

Jun, 2024