- 基于扩散的语音增强与带权的生成 - 监督学习损失
通过引入均方误差损失(MSE)来改善扩散训练目标,度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异,提出了一种增强语音的方法,实验证明其有效性。
- 用于生成性语音增强的单步和少步扩散
通过两阶段训练方法,我们解决了扩散模型在语音增强中的潜在问题,实现了与基准模型相当的性能,缩短了推理过程时间,并显著优于扩散基线模型。
- 基于深度学习的语音增强去噪过程连续建模
本文研究了基于深度学习的语音增强中的连续建模方法,重点关注降噪过程。通过引入一个状态变量来表示降噪过程,训练中使用类似 UNet 结构的神经网络学习估计连续降噪过程中的每个状态变量,测试时引入一个控制因子作为嵌入,可调整噪声削减水平。该方法 - 微型语音增强的两步知识蒸馏
借助知识蒸馏技术,我们提出了一种新的两步法来压缩 Tiny 语音增强模型,其中包括先用知识蒸馏目标进行预训练,然后切换到完全监督训练模式,同时提出了一种新的细粒度相似性保持 KD 损失函数,该方法在高压缩和低信噪比条件下表现出突出的改进,相 - AV2Wav:基于扩散的连续自监督特征合成的音频 - 视觉语音增强
在这项工作中,我们介绍了 AV2Wav,这是一种基于重新综合的视听语音增强方法,可以在现实训练数据的挑战下生成清晰的语音。我们使用神经质量评估器从视听语音语料库中获取接近干净的子集,然后在这个子集上训练扩散模型,该模型以 AV-HuBERT - 评估基于学习的语音增强系统在嘈杂和混响环境中的泛化差距
通过引入参考模型以作为测试条件困难性的代理,本研究提出了一个泛化性能评估框架,旨在准确评估具有嘈杂和混响特性的语音增强系统。通过在多个语音、噪声和 BRIR 数据库之间进行交叉验证,准确估计了泛化间隙,发现对于 FFNN、Conv-TasN - 单声道语音增强的脉冲结构状态空间模型
使用 Spiking Structured State Space Model(Spiking-S4)可以高效地从长时间语音序列中提取干净的语音,该方法将 Spiking Neural Networks(SNN)的能效与 Structure - 噪声鲁棒的语音情感识别与信噪比自适应语音增强
本研究提出了一种噪声鲁棒的语音情感识别系统,通过语音增强技术有效降低输入信号中的噪声,并引入信噪比级别检测结构和波形重建策略,以减少对无或较少背景噪声的语音信号的负面影响。实验结果表明,该系统能够有效提高语音情感识别系统的噪声鲁棒性,包括防 - ICCV视觉引导的音频混响去除
提出一种新颖的音频 - 视觉去混响框架 AdVerb,利用视觉线索来估计清晰音频,通过几何感知的跨模态变换器架构捕捉场景几何和音频 - 视觉跨模态关系生成复杂的理想比例掩码,并应用于混响音频以预测清晰音频,通过广泛的定量和定性评估证明了该方 - 高效单声道语音增强的谱注意力融合
在语音增强领域,我们提出了一种称为频谱注意力融合的方法,通过使用卷积模块替换自注意力层,提高了模型的计算效率,从而实现了与先进模型相媲美的结果,但参数规模更小(0.58M)的目标。
- 自监督语音表示损失函数在语音增强中的效果
语音增强中,使用自监督语音表示作为特征变换的损失函数的关系与效果进行了研究,发现与嘈杂音频语言匹配的模型具有更好的性能,但是这可能导致这些增强系统仅适用于特定语言而无法泛化到其他语言,而自监督表示的训练语言似乎对性能影响不大,而特定语言的训 - 使用 U-Net 脉冲神经网络的单信道语音增强
本文提出了一种基于脉冲神经网络(SNN)和 U-Net 架构的能量高效语音增强模型,该模型在处理带有时间维度的数据(例如语音)和应用于资源有限设备上具有良好的性能,实验结果表明所提出的 SNN 模型在能量高效性上优于 Intel Neuro - 噪声感知语音增强处理技术 —— 基于扩散概率模型
本文提出了一种噪声感知语音增强方法,通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程,并采用多任务学习模式来优化增强和分类任务,实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法, - 基于方差保持的插值扩散模型用于语音增强
本研究的目标是实现扩散模型用于语音增强,介绍了基于方差保持的插值扩散和方差爆炸的插值扩散的框架,以及改进扩散模型的方法,并在公共基准中评估了该模型的性能
- 语音增强中高效编码器 - 解码器和双通道 Conformer 的综合特征学习
该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络(DPCFCS-Net), 在 VCTK+DEMAND 数据集上表现优于现有技术,其改进的密集连接块和二维注意力模块易于集成到现有网 - 一种无需掩码的神经网络用于单声道语音增强
提出了一种新的简单直接的网络架构 MFNet 用于语音增强,它的映射方法优于掩模方法,可用于强噪声环境下的优化解决,并在 2020 年 DNS 挑战测试无混响水平上表现为最先进的映射模型。
- 利用小型模型的多维深层结构状态空间方法进行语音增强
本文提出了一种多维结构化状态空间(S4)方法来增强语音,将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性,探索了几种基于 S4 的 T 和 TF 深层结构,其中,在 TF 领域中,与基于卷积层的传统 U 型模型相比,所提出的 - SE-Bridge:使用恒定布朗桥的语音增强
SE-Bridge 是一种基于稳定性模型的语音增强方法,通过解决一个随机微分方程并结合布朗桥过程,能够在多种指标上达到最先进的效果,并提高 15 倍的采样效率,同时在 ASR 和 SV 等下游任务中也表现出了良好的性能。
- 基于神经网络的语音增强中融入不确定性
该研究通过在神经网络的语音信号增强过程中,将 aleatoric 和 epistemic 不确定性模型化,提出了一种模型不确定性建模的框架,并在不同数据集上验证了该方法的有效性。
- 通过码本查找恢复洁净语音表示以提高噪声鲁棒性 ASR 的 Wav2code
本文提出了一种名为 Wav2code 的自监督框架,用于实现无失真的一般性语音增强,以提高在各种噪声条件下的语音识别性能。