SVSNet +：使用语音基础模型的表示增强说话人声音相似性评估模型

Jun, 2024

SVSNet +：使用语音基础模型的表示增强说话人声音相似性评估模型

SVSNet+: Enhancing Speaker Voice Similarity Assessment Models with Representations from Speech Foundation Models

Chun Yin, Tai-Shih Chi, Yu Tsao, Hsin-Min Wang

TL;DR本研究提出了 SVSNet + 模型，该模型整合了预训练的 SFMs 模型来改善对说话者声音相似性的评估性能，实验证明使用 WavLM 表征的 SVSNet + 相比基线模型有显著改进，将 WavLM 替换为其他 SFMs 时，SVSNet + 仍优于基线模型且表现出强大的泛化能力。

Abstract

Representations from pre-trained speech foundation models (sfms) have shown impressive performance in many downstream tasks. However, the potential benefits of incorporating pre-trained SFM representations into s

pre-trained speech foundation models sfms speaker voice similarity assessment svsnet+wavlm

发现论文，激发创造

大规模自监督语音表征学习用于自动化说话者验证

使用预训练模型学习到的语音表示作为输入特征，采用可学习权重的平均表示方法，在 Voxceleb 数据集上进行了自我监督训练，实现了自动说话人验证，在三个官方测试中分别取得了 0.537％、0.569％和 1.180％的等误差率（EER），超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。

Oct, 2021

2022 远场说话人验证挑战赛的 SpeakIn 说话人验证系统

本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022（FFSVC2022）任务一和任务二的讲话者验证（SV）系统。我们采用基于 ResNet 和 RepVGG 的架构，采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集，创新性地提出了分阶段迁移学习方法来提高模型性能，解决了领域不匹配问题，并在两个挑战任务中表现出优异的性能。

Sep, 2022

利用大规模 ASR 模型，在自监督学习中追求说话者验证的有监督性能

自我监督学习在发音验证中表现出与有监督系统相近的性能，本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签，实现了语音表示学习中的有监督性能，取得了 0.99％的 EER，接近有监督基线 0.94％的 EER。

Jun, 2024

关于语音基础模型在口语语言理解中的评估

通过对多个受监督和自监督 SFMs 进行广泛评估，我们发现，尽管受监督的 SFMs 在语音识别数据上已经进行了预训练（带有标签），但并不总是表现优于自监督的 SFMs；后者在 SLUE 的序列生成任务上往往至少与受监督的 SFMs 表现一样出色，有时甚至更好。对于大多数任务来说，复杂预测头的性能最佳，尽管会增加推理时间。我们还引入了一个开源工具包和性能排行榜 SLUE-PERB，用于这些任务和建模策略。

Jun, 2024

Speech-XLNet: 用于自我注意力网络的无监督声学模型预训练

本文提出了一种无监督预训练方案 “Speech-XLNet”，利用 XLNet 进行自注意力网络（SAN）无监督预训练得到语音表示，可以在混合 SAN / HMM 框架下微调。实验表明，Speech-XLNet 相比于从随机初始化权重训练的模型，在 TIMIT 和 WSJ 任务中都能显著提高 SAN / HMM 的性能，包括收敛速度和识别准确性。

Oct, 2019

自学习语音增强模型微调的特征归一化

本研究探讨了使用预训练语音表示模型进行下游语音增强任务的可行性，并提出一种新的特征归一化技术，将这些模块平滑地链接在一起，能够在结合各种类型的预训练语音模型时显著提高语音质量。

Jun, 2023

用受监督和自监督的语音基础模型对儿童 ASR 进行基准测试

基于多个声学模型和数据增强方法，本研究针对儿童自动语音识别（ASR）问题提出了一个全面的基准，探索了细调策略、模型大小和数据增强方法之间的关系，并提出了一个稳定的细调方法（PIF）作为正则化。

Jun, 2024

使用无旋律监督预训练提升单音人声合成的音域

基于先前的研究，在一个多歌手的数据集上进行的旋律无监督多说话人预训练方法，提高了单个说话人的声域，同时不降低音色相似性。这种预训练方法可以应用于只包含音频和歌词对的大规模多歌手数据集，并改善了合成歌声的音质和节奏自然度。

Sep, 2023

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

SLMGAN：利用语音语言模型表示的 GAN 进行无监督零样本语音转换

介绍了一种新的方法 SLMGAN，它利用 SLM（大规模预训练的语音语言模型）在生成对抗网络（GAN）框架中实现鉴别任务，特别是用于语音转换。通过在基于 mel 的鉴别器之上添加基于 SLM 的 WavLM 鉴别器，并结合新设计的 SLM 特征匹配损失函数，实现了一种无监督的零样本语音转换系统，培训过程中不需要文本标签。主观评估结果表明，SLMGAN 在自然度方面优于现有的零样本语音转换模型，并达到了相似性方面的可比较水平，突显了基于 SLM 的鉴别器在相关应用中的潜力。

Jul, 2023