非对称和试验依赖性建模:LIA 对 SdSV 挑战任务 2 的贡献
该论文介绍了一种自动发言人验证系统,以从目标发言人的音频中提取嵌入信息,用于获取他的声音的重要特征,如音高、能量和音素的持续时间,并在多声音 TTS 流水线中使用该信息。
Jun, 2024
文档概述了 2024 年的文本相关说话人验证(TdSV)挑战赛,以分析和探索文本相关说话人验证的新方法。该挑战的主要目标是激励参与者开发单一而具有竞争力的系统,进行彻底的分析,并探索创新的概念,如多任务学习、自监督学习、少样本学习等。
Apr, 2024
研究如何提高自动说话人验证系统的欺骗稳健性,主要从基于概率线性判别分析的后端分类器入手,并运用三种无监督领域适应技术来优化它。旨在提高系统在逻辑和物理接近情境下的表现,对于后者,尤其是在被重放音频攻击时,针对真实的和伪造的情况,相对改进率分别达到 36.1% 和 5.3% 接近最高点。除此之外,还进行了一些额外的研究,如攻击分析、数据构成和与高斯后端的分数级别的对策系统的集成分析。
Mar, 2022
本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022(FFSVC2022)任务一和任务二的讲话者验证(SV)系统。我们采用基于 ResNet 和 RepVGG 的架构,采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集,创新性地提出了分阶段迁移学习方法来提高模型性能,解决了领域不匹配问题,并在两个挑战任务中表现出优异的性能。
Sep, 2022
本文主要探讨了基于神经网络的对话系统中说话者建模的重要性问题,提出将说话者分类作为通用说话者建模的代理任务,并收集大量数据以支持这个方向的研究,进一步研究了基于时间和基于内容的说话者模型,并提出了几种混合模型。实验结果表明,说话者分类是可行的,混合模型表现优异。
Aug, 2017
本文提出了一种新的对抗多任务学习模型(即 Speaker-invariant training),旨在同时减少发言人的特征变异性并最大化其 Senone 区分性,以增强基于深度神经网络的自动语音识别系统性能,并通过对抗多任务学习来学习说话者不变且区分性 Senone 的深层特征。在此模型的基础上得到的结果比基于传统的对抗模型和 SI 模型组合的 ASR 系统结果更佳。
Apr, 2018
优化使用演讲者归属自动语音识别(SA-ASR)系统在实际场景中,如 AMI 会议语料库,用于改进语音片段的演讲者分配的新颖研究,涉及语音活动检测(VAD)、发言者序列聚类(SD)和 SA-ASR 方面的流程。
Mar, 2024
对在多方会议场景下的口语识别(SA-ASR)中的发言人进行的比较研究中,通过三种不同的方法进行了评估。结果表明,引入单词级别的划分模型可以有效降低时戳对准错误。同时,采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。
Mar, 2022
本文介绍了我们的 T13 系统,用于 2023 年的歌声转换挑战赛(SVCC)。我们采用基于自监督学习的识别与合成方法,针对领域内和跨域的英语歌声转换任务,通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色,尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度,验证了我们提出方法的广义泛化能力。我们的客观评估结果显示,对于跨域歌声转换,使用大规模数据集尤为有益。
Oct, 2023
本研究旨在开发一种单一的整合了反欺骗技术的演讲者验证嵌入式系统,此系统具备拒绝非目标演讲者及目标演讲者欺诈性输入的能力,而且与融合自动演讲者验证(ASV)及反欺骗对策(CM)嵌入式系统相比,能够具备竞争性的表现。该研究提出的新框架包括多阶段训练与损失函数的组合,并利用多种声码器与合成技术,来回应训练数据不足及短缺欺骗性数据的问题。实验结果表明出色的改善,进而实现了对 SASV2022 挑战赛评估协议的 SASV-EER 低至 1.06% 的性能。
May, 2023