深度说话人嵌入架构中的残差信息
本文提出了一个基于深度学习的框架,用于提取包含与单词识别相关的嘴部信息的单词嵌入。该模型包括由时空卷积层、残差网络和双向 LSTM 组成;经过训练后,其在视觉语音识别中表现出了超越现有技术的优势。同时,实验证明了该模型即使在未被训练到的目标单词上,也有可行的表现。
Oct, 2017
Deep Speaker 是一种神经说话人嵌入系统,可以将话语映射到一个超球上,在此球上,通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征,然后通过平均池化生成话语级别的说话人嵌入,并使用基于余弦相似度的三元组损失进行训练。实验表明,Deep Speaker 优于基于 DNN 的 i 矢量基线,在三个不同数据集上表现出色,还表明适应普通话训练的模型可以提高对英语说话人的识别精度。
May, 2017
我们在这篇论文中首次尝试了理解非自回归分解多说话者语音合成架构如何利用不同说话者嵌入集中的信息。我们分析了联合学习表示和从预训练模型初始化它们是否对目标说话者身份的质量改进起作用。在另一项分析中,我们调查了不同嵌入集对网络核心语音抽象(即零调制)在说话者身份和表示学习方面的影响。我们表明,无论使用的嵌入集和学习策略如何,网络都可以同样很好地处理各种说话者身份,语音输出质量几乎没有明显变化,并且在迄今为止采用的标准训练过程中,合成系统的核心结构中不可避免地发生的说话者泄漏。
Jul, 2023
本文提出了一种称为 “深度聚类” 的深度学习框架,通过使用光谱图嵌入进行声源分离,从而实现类无关的信号分离,大大降低了领域分割成本,并且不依靠类别给出类标签,具有将不同源集合的潜力。
Aug, 2015
通过增加训练和测试数据的方式,寻找嵌入空间维度的最优值,使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性,在不增加额外数据或使用更深和更复杂的模型的情况下,实验结果表明:(i)重复和随机时间翻转可以将预测误差降低高达 18%。(ii)较低维度嵌入更适合进行验证。(iii)使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。
Jul, 2018
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020
本文研究了说话人注册嵌入的几个重要但常被忽视的方面,包括常用的说话人识别嵌入的适用性、log-mel 滤波器组和自监督嵌入的介绍以及嵌入的跨数据集泛化能力;结果表明,log-mel 滤波器组嵌入在跨数据集评估中表现更佳,但这种特征过去被忽视,未来需要进行更好的上游特征研究。
Oct, 2022
本研究介绍了三种基于边界的深度说话人嵌入学习损失函数,以实现更优的说话人辨识性能。在 VoxCeleb1 和 SITW 两个公共数据集上的实验证明了该方法比传统的交叉熵损失函数 softmax 具有更优的性能,分别在两个数据集上实现了 25%~30% 的等误差率 (EER) 降低,并分别获得了 2.238% EER 和 2.761% EER 的性能表现。
Jun, 2019
自我监督表示与声音识别中的说话人身份有关,并能更好地理解强大网络中不同层次的声学信息表示,通过评估声学、语音、韵律和语言变体之间的说话人识别准确性,对比模型和人类的编码空间相似性,旨在挑战距离度量作为说话人接近程度的代理,并展示某些模型能够预测自然刺激下听觉和语言区域的脑部反应。
Jun, 2024
本文介绍了一种新的自监督学习方法,采用 HuBERT 框架并结合分离机制,能够在不丢失语音信息的前提下实现说话人分离,并在内容相关的下游任务中获得显著的性能提升。
Apr, 2022