个性化语音增强无需独立的说话人嵌入模型

Jun, 2024

个性化语音增强无需独立的说话人嵌入模型

Personalized Speech Enhancement Without a Separate Speaker Embedding Model

Tanel Pärnamaa, Ando Saabas

TL;DR个性化语音增强模型通过适应说话者的语音特征，可以提高远程会议系统的音频质量。然而，大多数现有方法需要独立的说话者嵌入模型从注册音频中提取说话者的向量表示，这增加了训练和部署过程的复杂性。我们提出使用个性化语音增强模型本身的内部表示作为说话者嵌入，从而避免了需要独立模型的需求。我们证明我们的方法在降噪和消除回声任务上表现出与使用预训练的说话者嵌入模型的标准方法相同或更好的效果。此外，我们的方法在 2023 年 ICASSP 深度噪声抑制挑战中比冠军的平均观点分高 0.15。

Abstract

personalized speech enhancement (PSE) models can improve the audio quality of teleconferencing systems by adapting to the characteristics

personalized speech enhancement audio quality teleconferencing systems speaker embedding model mean opinion score

发现论文，激发创造

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

本文提出了一种基于简化说话人提示的目标说话人提取方法，通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入，显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明，我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78，比当前的 SOTA 模型有显著的改进，并提供了目前 WSJ0-2mix 最佳的 TSE 结果。

Jan, 2023

远场发言人验证的语音感知说话人嵌入

提出了一种联合训练语音识别和说话人识别 (JTSS) 框架，以利用语音中的音素内容来进行远场说话人验证，结果表明在远场环境下利用音素信息是学习强健说话人表示的有效方法。

Nov, 2023

用于解耦合报到和运行阶段说话人识别模型的训练后嵌入对齐

使用轻量级神经网络将两个独立模型的嵌入式映射到共享的说话者嵌入空间，以实现非对称说话者识别系统，并在大规模数据集上训练的模型中，在共享的说话者得分空间中显著优于余弦打分。

Jan, 2024

DSE-TTS：用于跨语言文本转语音的双说话人嵌入

提出了一种新的双说话人嵌入式 TTS 框架，结合了一种嵌入式用于学习语言发音风格，另一个用于模拟目标说话人的音色，以解决跨语言 TTS 中的噪音干扰和说话人相似度问题。实验证明，这种框架在跨语言合成方面表现优异，尤其在语音自然度方面比最先进的方法要好。

Jun, 2023

噪声感知语音增强处理技术 —— 基于扩散概率模型

本文提出了一种噪声感知语音增强方法，通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程，并采用多任务学习模式来优化增强和分类任务，实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法，尤其是在未知噪声上表现出较好的泛化性能。

Jul, 2023

ESPnet-SE++：面向鲁棒语音识别、翻译和理解的语音增强

本文介绍了将语音分离和增强（SSE）纳入 ESpnet 工具包的最新进展，包括最新的语音增强模型及其评估，并设计了新界面将语音增强应用于前端任务包括自动语音识别（ASR）、语音翻译（ST）和口语理解（SLU），实验表明其在多通道场景下是一种有前途的研究方向及可以用作未来研究的基准语料库。

Jul, 2022

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

针对设备内单通道语音增强的 Wav2Vec2 嵌入层的深入研究

通过对自监督学习表示进行研究，我们发现它们在挑战性条件下的单通道语音增强任务中几乎没有增加价值。为了系统地评估 SSL 表示对这些增强模型性能的影响，我们提出了多种利用这些嵌入的技术，包括不同形式的知识蒸馏和预训练。

Mar, 2024

自适应的自监督语音表示模型条件下的抗噪零样本语音合成

基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而，当参考语音包含噪声时，这种方法的语音合成质量会降低。本文中，我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中，并使用带噪声的参考语音对其进行微调，同时采用了语音增强前端以进一步提高性能。通过客观和主观评估，我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性，并且与语音增强相结合有效地工作。

Jan, 2024