联合回声消除和噪声抑制的超级双通路压缩
该论文介绍了一种基于深度神经网络的语音编码器,它实现了从原始语音数据到压缩、量化、熵编码和解压缩的端到端优化,无需手动特征工程,并在不同的比特率下表现与AMR-WB标准相当,同时能够在3.8GhZ英特尔CPU上实时运行。
Oct, 2017
本文提出了一种名为 DPRNN 的新型深度循环神经网络机制,它通过将输入序列分成较小的块并迭代应用区域内和区域间操作来模拟极长序列。实验结果表明,在使用 DPRNN 和在时域中应用样本级建模的 TasNet 中,相对于之前的最佳系统,使用比原来小 20 倍的模型在 WSJ0-2mix 上实现了新的最先进性能。
Oct, 2019
通过使用模型压缩技术,我们成功地压缩了大规模循环神经网络,以满足计算资源受限的助听器上的使用需求。结果表明,在保持高质量音频输出的前提下,压缩模型的尺寸和操作数量分别减小了11.9倍和2.9倍,计算延迟为2.39毫秒。
May, 2020
利用神经网络技术,提出了一种先进的实时高保真音频编解码器,其采用流式编解码器结构和量化的潜在空间,并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中,该方法在所有评估指标下均优于基线方法。
Oct, 2022
本文提出了一个名为DeepVQE的基于深度学习模型的实时交叉关注方法来同时解决声学回声消除,噪声抑制和混响消除等多种语音处理问题,并在2023年ICASSP的测试集上取得了最佳性能表现。
Jun, 2023
该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络(DPCFCS-Net),在VCTK+DEMAND数据集上表现优于现有技术,其改进的密集连接块和二维注意力模块易于集成到现有网络中,具有更高的适应性。
Jun, 2023
语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域conformers(TD-Conformers)是DP方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时conformers更有效。提出了子采样层以进一步提高计算效率。最佳的TD-Conformer在WHAMR和WSJ0-2Mix基准测试上分别实现了14.6 dB和21.2 dB的SISDR改进。
Oct, 2023
噪声抑制和回声消除对于语音增强至关重要,是智能设备和实时通信的基础,而这些算法必须保证高效实时推断和低计算需求。我们提出了一种新的投影损失函数,用于增强噪声抑制效果,并且能够直接在LAEC预处理输出上进行回声消除的预测,从而显著提高模型性能。我们的噪声抑制模型仅使用3.1M个参数和0.4GFlops/s计算负载,实现了接近最先进的结果。此外,我们的回声消除模型胜过了复制的行业领先模型,引入了语音增强的新视角。
Nov, 2023
一种创新的方法用于在资源受限设备上实时语音增强的深度神经网络计算复杂度的减少,该方法利用两阶段处理框架,采用通道特征重定向来降低卷积运算的计算负荷,并结合改进的功率定律压缩技术以实现与最先进方法相当的噪声抑制性能,但具有显著较少的计算要求。值得注意的是,我们的算法的计算复杂度和内存使用比之前最先进的方法要少3到4倍。
Dec, 2023
我们提出了一种新颖的一次性多个ASR系统联合压缩和量化方法,使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统,而无需单独训练和存储个别目标系统。实验证明,与等复杂度的单独训练系统相比,一个全能模型中压缩的多个ASR系统的字错误率(WER)相当,或更低至1.01%绝对值(6.98%相对值)。整体系统压缩和训练时间加速了3.4倍。在基线Switchboard-300hr Conformer和LibriSpeech-100hr fine-tuned wav2vec2.0模型上,最大模型大小压缩比分别达到了12.8倍和3.93倍,没有引起统计上显著的WER增加。
Jun, 2024