远场发言人验证的语音感知说话人嵌入
本文介绍了一种两阶段框架,用于考虑口语单词的上下文执行音素语义嵌入,第一阶段执行音素嵌入,第二阶段执行语义嵌入,我们进一步提出了通过文本嵌入并行评估在第二阶段获得的音频嵌入的音素和语义性质。
Jul, 2018
本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022(FFSVC2022)任务一和任务二的讲话者验证(SV)系统。我们采用基于 ResNet 和 RepVGG 的架构,采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集,创新性地提出了分阶段迁移学习方法来提高模型性能,解决了领域不匹配问题,并在两个挑战任务中表现出优异的性能。
Sep, 2022
提出了一种新的双说话人嵌入式 TTS 框架,结合了一种嵌入式用于学习语言发音风格,另一个用于模拟目标说话人的音色,以解决跨语言 TTS 中的噪音干扰和说话人相似度问题。实验证明,这种框架在跨语言合成方面表现优异,尤其在语音自然度方面比最先进的方法要好。
Jun, 2023
本文提出一种新颖的声学单词嵌入,名为声学邻域嵌入,其中利用随机邻近嵌入(SNE)将任意长度的语音或文本映射到固定的、降维的向量空间中。通过训练两个编码器神经网络,它在神经网络训练中具有更有效的梯度,并在单词(名称)识别任务中显著提高了准确性,特别是在使用新的嵌入向量之间的欧几里德距离进行孤立名称识别任务时。
Jul, 2020
个性化语音增强模型通过适应说话者的语音特征,可以提高远程会议系统的音频质量。然而,大多数现有方法需要独立的说话者嵌入模型从注册音频中提取说话者的向量表示,这增加了训练和部署过程的复杂性。我们提出使用个性化语音增强模型本身的内部表示作为说话者嵌入,从而避免了需要独立模型的需求。我们证明我们的方法在降噪和消除回声任务上表现出与使用预训练的说话者嵌入模型的标准方法相同或更好的效果。此外,我们的方法在 2023 年 ICASSP 深度噪声抑制挑战中比冠军的平均观点分高 0.15。
Jun, 2024
本文提出了几种新的方法,利用发音特征构建语音感知单词嵌入,并介绍了一组语音单词嵌入,以促进社区发展,评估和使用,同时提出了若干评估方法,以促进语音单词嵌入的内在和外在性能评估,并希望我们的一系列任务能促进可复现性,为以后的语音单词嵌入研究提供方向。
Apr, 2023
本研究旨在开发一种单一的整合了反欺骗技术的演讲者验证嵌入式系统,此系统具备拒绝非目标演讲者及目标演讲者欺诈性输入的能力,而且与融合自动演讲者验证(ASV)及反欺骗对策(CM)嵌入式系统相比,能够具备竞争性的表现。该研究提出的新框架包括多阶段训练与损失函数的组合,并利用多种声码器与合成技术,来回应训练数据不足及短缺欺骗性数据的问题。实验结果表明出色的改善,进而实现了对 SASV2022 挑战赛评估协议的 SASV-EER 低至 1.06% 的性能。
May, 2023
SEF-VC 是一种无需说话者嵌入的语音转换模型,通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色,并以非自回归的方式从 HuBERT 语义标记中重建波形,提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性,在生成高质量语音时与目标参考的相似性更好,即使对于非常短的参考讲话。
Dec, 2023
本研究旨在通过分析不同的声学特征空间和分类器,确定可靠和强大的对抗欺骗攻击的措施。实验结果表明,基于深度神经网络(DNN)的方法在欺骗检测任务中获得了相当低的等错误率 (EER)
May, 2017
本文研究了说话人注册嵌入的几个重要但常被忽视的方面,包括常用的说话人识别嵌入的适用性、log-mel 滤波器组和自监督嵌入的介绍以及嵌入的跨数据集泛化能力;结果表明,log-mel 滤波器组嵌入在跨数据集评估中表现更佳,但这种特征过去被忽视,未来需要进行更好的上游特征研究。
Oct, 2022