稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

MMJan, 2023

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings

Kai Liu, Xucheng Wan, Ziqing Du, Huan Zhou

TL;DR本文提出了一种基于简化说话人提示的目标说话人提取方法，通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入，显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明，我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78，比当前的 SOTA 模型有显著的改进，并提供了目前 WSJ0-2mix 最佳的 TSE 结果。

Abstract

As a practical alternative of speech separation, target speaker extraction (TSE) aims to extract the speech from the desired speaker using additional speaker cue extracted from the speaker. Its main challenge lie

target speaker extraction speaker cue speaker embedding tse models wsj0-2mix dataset

发现论文，激发创造

在鸡尾酒会上输入以聆听：文本引导的目标说话人提取

通过结合自然语言处理，本研究提出了一种名为 LLM-TSE 的模型，可以提取用户输入的文本信息中的有用语义线索，辅助预注册线索或独立控制目标说话人提取过程。实验结果表明，当仅使用文本线索时，性能表现有竞争力，并且结合预注册声学线索时，创造了新的最先进水平。据我们所知，这是首个成功将文本线索纳入目标说话人提取任务的研究，可作为研究鸡尾酒会问题的基石。

Oct, 2023

DSE-TTS：用于跨语言文本转语音的双说话人嵌入

提出了一种新的双说话人嵌入式 TTS 框架，结合了一种嵌入式用于学习语言发音风格，另一个用于模拟目标说话人的音色，以解决跨语言 TTS 中的噪音干扰和说话人相似度问题。实验证明，这种框架在跨语言合成方面表现优异，尤其在语音自然度方面比最先进的方法要好。

Jun, 2023

量化证明：关于注册发言者嵌入的忽略方面对目标发言者分离的影响

本文研究了说话人注册嵌入的几个重要但常被忽视的方面，包括常用的说话人识别嵌入的适用性、log-mel 滤波器组和自监督嵌入的介绍以及嵌入的跨数据集泛化能力；结果表明，log-mel 滤波器组嵌入在跨数据集评估中表现更佳，但这种特征过去被忽视，未来需要进行更好的上游特征研究。

Oct, 2022

寻找适用于说话人分离的强嵌入提取器

通过生成更贴近对话场景的说话人验证评估协议和两种数据增强技术来解决说话人嵌入提取器在多说话人存在时的性能下降问题，实验证明这两种方法都是有效的。

Oct, 2022

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Mar, 2022

单通道语音混合中基于深度提取网络的目标说话人恢复

该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法，它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音，相比基线深度吸引子模型，SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进，并且该方法可以很好地推广到多个干扰说话人的情况下。

Jul, 2018

利用时域 SpeakerBeam 改善目标语音提取的说话人识别能力

本文提出 SpeakerBeam 算法实现对目标说话人的识别和提取，对同性别混合语音的语音分离效果不如期望，但在本文中提出的时间域、空间特征和辅助说话人识别方法使得提取效果得到增强并超过了 TasNet。

Jan, 2020

个性化语音增强无需独立的说话人嵌入模型

个性化语音增强模型通过适应说话者的语音特征，可以提高远程会议系统的音频质量。然而，大多数现有方法需要独立的说话者嵌入模型从注册音频中提取说话者的向量表示，这增加了训练和部署过程的复杂性。我们提出使用个性化语音增强模型本身的内部表示作为说话者嵌入，从而避免了需要独立模型的需求。我们证明我们的方法在降噪和消除回声任务上表现出与使用预训练的说话者嵌入模型的标准方法相同或更好的效果。此外，我们的方法在 2023 年 ICASSP 深度噪声抑制挑战中比冠军的平均观点分高 0.15。

Jun, 2024

VCSE: 时域视觉语境说话人提取网络

本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀

Oct, 2022

说话人感知语音转换器

本研究利用 Speech-Transformer (SST) 研究 E2E 模型的说话人感知训练，提出了一个 Speaker-Aware Speech-Transformer (SAST) 模型，在静态的说话人知识块基础上生成加权的说话人嵌入向量，成功地将训练说话人的因素规范化，相较于独立于某个特定训练说话人的 baseline 模型，SAST 取得了相对 6.5% 的 CER 减少。

Jan, 2020