深度说话人嵌入架构中的残差信息

Feb, 2023

深度说话人嵌入架构中的残差信息

Residual Information in Deep Speaker Embedding Architectures

Adriana Stan

TL;DR本文介绍了针对六个最新高性能的 DNN 体系结构提取出的演讲者嵌入的分析，重点关注它们能够从语音信号中真正区分讲话者身份的程度。结果表明，这些嵌入的区分能力非常高，但在所有已分析的体系结构中，残余信息仍呈现为与录音条件、语言内容和话语持续时间高度相关的形式。

Abstract

speaker embeddings represent a means to extract representative vectorial representations from a speech signal such that the representation pertains to the speaker identity alone. The embeddings are commonly used

speaker embeddings dnn architectures disentangle speech signal residual information

发现论文，激发创造

视觉语音识别的深度单词嵌入

本文提出了一个基于深度学习的框架，用于提取包含与单词识别相关的嘴部信息的单词嵌入。该模型包括由时空卷积层、残差网络和双向 LSTM 组成；经过训练后，其在视觉语音识别中表现出了超越现有技术的优势。同时，实验证明了该模型即使在未被训练到的目标单词上，也有可行的表现。

Oct, 2017

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

非自回归语音合成中说话者嵌入选择的效果分析

我们在这篇论文中首次尝试了理解非自回归分解多说话者语音合成架构如何利用不同说话者嵌入集中的信息。我们分析了联合学习表示和从预训练模型初始化它们是否对目标说话者身份的质量改进起作用。在另一项分析中，我们调查了不同嵌入集对网络核心语音抽象（即零调制）在说话者身份和表示学习方面的影响。我们表明，无论使用的嵌入集和学习策略如何，网络都可以同样很好地处理各种说话者身份，语音输出质量几乎没有明显变化，并且在迄今为止采用的标准训练过程中，合成系统的核心结构中不可避免地发生的说话者泄漏。

Jul, 2023

深度聚类：用于分割和分离的判别嵌入

本文提出了一种称为 “深度聚类” 的深度学习框架，通过使用光谱图嵌入进行声源分离，从而实现类无关的信号分离，大大降低了领域分割成本，并且不依靠类别给出类标签，具有将不同源集合的潜力。

Aug, 2015

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

量化证明：关于注册发言者嵌入的忽略方面对目标发言者分离的影响

本文研究了说话人注册嵌入的几个重要但常被忽视的方面，包括常用的说话人识别嵌入的适用性、log-mel 滤波器组和自监督嵌入的介绍以及嵌入的跨数据集泛化能力；结果表明，log-mel 滤波器组嵌入在跨数据集评估中表现更佳，但这种特征过去被忽视，未来需要进行更好的上游特征研究。

Oct, 2022

边际问题：面向说话人识别更具区分性的深度神经网络嵌入

本研究介绍了三种基于边界的深度说话人嵌入学习损失函数，以实现更优的说话人辨识性能。在 VoxCeleb1 和 SITW 两个公共数据集上的实验证明了该方法比传统的交叉熵损失函数 softmax 具有更优的性能，分别在两个数据集上实现了 25%~30% 的等误差率 (EER) 降低，并分别获得了 2.238% EER 和 2.761% EER 的性能表现。

Jun, 2019

自监督模型与人类中的演讲者身份编码评估

自我监督表示与声音识别中的说话人身份有关，并能更好地理解强大网络中不同层次的声学信息表示，通过评估声学、语音、韵律和语言变体之间的说话人识别准确性，对比模型和人类的编码空间相似性，旨在挑战距离度量作为说话人接近程度的代理，并展示某些模型能够预测自然刺激下听觉和语言区域的脑部反应。

Jun, 2024

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022