本文提出了一种基于原始波形的演讲者识别模型,它结合了机器学习和说话人认证的最新进展,其中包括 Res2Net 骨干模块和多层特征聚合。该模型具有很高的性能表现,可以应用于半监督学习场景中,即在只有少量标记训练数据和大量未标记训练数据的情况下,可用于说话人识别。
Mar, 2022
该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法,旨在进行语音去噪处理,比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。
Jun, 2017
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
本文探讨了一种基于神经网络、以谱掩蔽为基础的单声道和双声道语音增强方法,最佳模型在 CHiME2 语音增强任务中的性能比先前的最先进性能提高了 0.4 分贝的信号失真比,并发现没有前瞻的模型在计算性能和参数数量与增强性能之间存在着权衡,可以在平均 0.03 dB SDR 内达到最佳双向模型的等效性能,此外,发现 200 毫秒的前瞻足以实现与最佳双向模型的等效性能。
Nov, 2018
研究了 Wave-U-Net 结构在语音增强中的应用,发现其在时域直接建模可以考虑大的时间上下文信息的特点下,可以在 Voice Bank corpus(VCTK)数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标,相比于其原始的音乐中唱声分离系统而言,基于少量隐藏层的结构更适合语音增强,该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号,并可以作为语音识别系统的预处理步骤。
本文提出了一种轻量级模型,可以将采样频率从 8kHz 提高到 16kHz,并使用 SEANet 模型结构和特征损失和对抗损失的组合方法,将高频内容恢复到与 16kHz 接近的水平,并且该模型在流模式下具有较低的延迟,可在双向语音通信系统中实现。
Oct, 2020
一种创新的方法用于在资源受限设备上实时语音增强的深度神经网络计算复杂度的减少,该方法利用两阶段处理框架,采用通道特征重定向来降低卷积运算的计算负荷,并结合改进的功率定律压缩技术以实现与最先进方法相当的噪声抑制性能,但具有显著较少的计算要求。值得注意的是,我们的算法的计算复杂度和内存使用比之前最先进的方法要少 3 到 4 倍。
Dec, 2023
本文提出了一种称之为 PercepNet 的用于语音增强的深度学习方法,该方法仅需要短时间的傅里叶变换,通过聚焦于语音的谱包络和周期性,可以实现高质量、实时的全频带语音增强,仅需要不到 5% 的 CPU 核心。
Aug, 2020
本文提出了一种端到端的系统,该系统包含两个深度神经网络,其一个用于提取语音级别的说话者嵌入,另一个用于后端分类,通过具有预训练方案的模型架构调整可以提取说话者嵌入,并使用附加目标函数简化提取过程,此系统在 VoxCeleb1 数据集上实现了同等于具有数据增强的最先进的 x 向量系统的表现。
Apr, 2019
这篇论文介绍了使用基于注意力机制的编码器 - 解码器模型及特征迁移学习来建立一个自动语音识别的端对端模型,通过处理原始语音信号并不需要设计预定义的对齐和手动建立的模型来直接与文本转录进行交互
Sep, 2017