自我监督的语音表征损失函数及其在语音增强中的应用

Jan, 2023

自我监督的语音表征损失函数及其在语音增强中的应用

Perceive and predict: self-supervised speech representation based loss functions for speech enhancement

George Close, William Ravenscroft, Thomas Hain, Stefan Goetze

TL;DR本文研究了语音增强中使用自我监督语音表示来帮助神经语音增强模型训练的方法，指出清洁和嘈杂语音特征编码之间的距离与语音质量和可懂性的心理声学测量值以及人类的平均意见分数（MOS）密切相关，并通过使用该距离作为损失函数的实验证明了相对于来自语音增强文献的常见损失函数的 STFT 频谱图距离损失，以及其他损失函数的性能。

Abstract

Recent work in the domain of speech enhancement has explored the use of self-supervised speech representations to aid in the training of neural speech enhancement models. However, much of this work focuses on usi

speech enhancement self-supervised speech representations neural speech enhancement models feature encodings psychoacoustically motivated measures

发现论文，激发创造

自监督语音表示损失函数在语音增强中的效果

语音增强中，使用自监督语音表示作为特征变换的损失函数的关系与效果进行了研究，发现与嘈杂音频语言匹配的模型具有更好的性能，但是这可能导致这些增强系统仅适用于特定语言而无法泛化到其他语言，而自监督表示的训练语言似乎对性能影响不大，而特定语言的训练数据量却对性能有很大影响。

Jul, 2023

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

从互信息角度重访语音表征的自监督学习

从信息论的角度出发，了解自监督语音表示学习的现有方法，通过使用互信息来开发度量方法，从而帮助模型设计和选择，并通过线性探测来评估表示的可访问性，展示模型在层次线性探测和语音识别上的性能。

Jan, 2024

面向效率的自监督语音表示学习方法

自我监督学习在计算机视觉、自然语言处理、生物学和语音等多个领域取得突破，然而现有方法的计算成本较高，限制了模型的部署、训练数据集的规模以及拥有大型自我监督模型的研究机构的数量。因此，需要进一步研究以解决自我监督表示学习中高计算成本的问题。

Dec, 2023

使用已学习的损失函数进行学习：利用 Quality-Net 进行语音增强以提高语音质量的感知评估

通过一个可微的近似 PESQ 函数训练语音增强模型，可以提高 PESQ 得分（相对于用 MSE loss 训练的结果增加了 0.18 分），同时保持语音可懂性。

May, 2019

多个自监督任务中学习与问题无关的语言表征

本论文提出一种改进的自监督学习方法，其中单个神经编码器由多个工作人员共同解决不同的自监督任务，该方法可学习传输、强健和面向问题的特征，这些特征中包含了从语音信号中提取的相关信息，如讲话者身份、音素和情感线索。

Apr, 2019

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

自我监督语音表示下的非侵入式听障人士智能可懂度预测

将自我监督语音表示应用于对听力受损用户的清晰度预测中，研究发现自我监督表示作为非侵入性预测模型的输入特征具有竞争力的性能，能够在复杂系统上预测清晰度评估

Jul, 2023

仅使用清晰语音的自监督语音质量估计和增强

提出了一种基于自编码器的自监督度量方法（VQScore），用于评估语音质量，并结合领域知识进行模型设计，同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明，该方法和增强模型与有监督基线模型具有竞争力。

Feb, 2024

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021