非对称和试验依赖性建模：LIA 对 SdSV 挑战任务 2 的贡献

Mar, 2024

非对称和试验依赖性建模：LIA 对 SdSV 挑战任务 2 的贡献

Asymmetric and trial-dependent modeling: the contribution of LIA to SdSV Challenge Task 2

Pierre-Michel Bousquet, Mickael Rouvier

TL;DR本研究描述了我们实验室在发言者识别领域的贡献，突出了除了短时长和语言之外，注册和测试数据之间以及评估数据集子集之间的不匹配问题。提出的方法在 SdSv 评估中实验性地展示了它们的相关性和效率，并可能在许多实际应用中具有重要意义。

Abstract

The sdsv challenge Task 2 provided an opportunity to assess efficiency and robustness of modern text-independent speaker verification systems. But it also made it possible to test new approaches, capable of takin

sdsv challenge speaker verification systems duration language mismatch

发现论文，激发创造

应用 ASV 进行语音识别：TTS 模型中 VC 和持续性预测改进的应用

该论文介绍了一种自动发言人验证系统，以从目标发言人的音频中提取嵌入信息，用于获取他的声音的重要特征，如音高、能量和音素的持续时间，并在多声音 TTS 流水线中使用该信息。

Jun, 2024

2024 年语音相关说话人验证挑战：挑战评估计划

文档概述了 2024 年的文本相关说话人验证（TdSV）挑战赛，以分析和探索文本相关说话人验证的新方法。该挑战的主要目标是激励参与者开发单一而具有竞争力的系统，进行彻底的分析，并探索创新的概念，如多任务学习、自监督学习、少样本学习等。

Apr, 2024

无监督域自适应的防欺骗说话人验证

研究如何提高自动说话人验证系统的欺骗稳健性，主要从基于概率线性判别分析的后端分类器入手，并运用三种无监督领域适应技术来优化它。旨在提高系统在逻辑和物理接近情境下的表现，对于后者，尤其是在被重放音频攻击时，针对真实的和伪造的情况，相对改进率分别达到 36.1% 和 5.3% 接近最高点。除此之外，还进行了一些额外的研究，如攻击分析、数据构成和与高斯后端的分数级别的对策系统的集成分析。

Mar, 2022

2022 远场说话人验证挑战赛的 SpeakIn 说话人验证系统

本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022（FFSVC2022）任务一和任务二的讲话者验证（SV）系统。我们采用基于 ResNet 和 RepVGG 的架构，采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集，创新性地提出了分阶段迁移学习方法来提高模型性能，解决了领域不匹配问题，并在两个挑战任务中表现出优异的性能。

Sep, 2022

多方对话中神经说话人建模：任务、数据集和模型

本文主要探讨了基于神经网络的对话系统中说话者建模的重要性问题，提出将说话者分类作为通用说话者建模的代理任务，并收集大量数据以支持这个方向的研究，进一步研究了基于时间和基于内容的说话者模型，并提出了几种混合模型。实验结果表明，说话者分类是可行的，混合模型表现优异。

Aug, 2017

通过对抗学习实现说话者无关的训练

本文提出了一种新的对抗多任务学习模型（即 Speaker-invariant training），旨在同时减少发言人的特征变异性并最大化其 Senone 区分性，以增强基于深度神经网络的自动语音识别系统性能，并通过对抗多任务学习来学习说话者不变且区分性 Senone 的深层特征。在此模型的基础上得到的结果比基于传统的对抗模型和 SI 模型组合的 ASR 系统结果更佳。

Apr, 2018

改进实际会议应用中的发言人指派的语音识别

优化使用演讲者归属自动语音识别（SA-ASR）系统在实际场景中，如 AMI 会议语料库，用于改进语音片段的演讲者分配的新颖研究，涉及语音活动检测（VAD）、发言者序列聚类（SD）和 SA-ASR 方面的流程。

Mar, 2024

多方会议中说话人归属的自动语音识别的比较研究

对在多方会议场景下的口语识别（SA-ASR）中的发言人进行的比较研究中，通过三种不同的方法进行了评估。结果表明，引入单词级别的划分模型可以有效降低时戳对准错误。同时，采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。

Mar, 2022

利用大规模语音和歌唱数据进行声音转换模型的比较研究：针对 2023 年歌声转换挑战的 T13 系统

本文介绍了我们的 T13 系统，用于 2023 年的歌声转换挑战赛（SVCC）。我们采用基于自监督学习的识别与合成方法，针对领域内和跨域的英语歌声转换任务，通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色，尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度，验证了我们提出方法的广义泛化能力。我们的客观评估结果显示，对于跨域歌声转换，使用大规模数据集尤为有益。

Oct, 2023

面向单一集成的防欺骗说话人验证嵌入

本研究旨在开发一种单一的整合了反欺骗技术的演讲者验证嵌入式系统，此系统具备拒绝非目标演讲者及目标演讲者欺诈性输入的能力，而且与融合自动演讲者验证（ASV）及反欺骗对策（CM）嵌入式系统相比，能够具备竞争性的表现。该研究提出的新框架包括多阶段训练与损失函数的组合，并利用多种声码器与合成技术，来回应训练数据不足及短缺欺骗性数据的问题。实验结果表明出色的改善，进而实现了对 SASV2022 挑战赛评估协议的 SASV-EER 低至 1.06% 的性能。

May, 2023