基于可变形时间卷积神经网络的单声道嘈杂混响语音分离
本文提出了几种深度卷积网络,包括多尺度动态加权门控扩展金字塔网络(FurcaPy)、带有 Intra-Parallel 卷积组件的门控 TCN(FurcaPa)、共享权重的多尺度门控 TCN(FurcaSh)以及带有门控差异卷积分量的扩张 TCN(FurcaSu)并进行了直接最优化 utterance 级别的信号失真比(SDR)的训练。在公共 WSJ0-2mix 数据语料库上进行的实验表明,这些网络提高了 18.4dB 的 SDR,显示出对演讲者分离任务性能的改进。
Feb, 2019
语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域 conformers(TD-Conformers)是 DP 方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。
Oct, 2023
该论文介绍了一个名为 Conv-TasNet 的深度学习框架,可用于端到端的语音分离,通过一系列线性编码器和加权函数(掩码),Conv-TasNet 可以显著地提高两个和三个扬声器混合声音的分离能力,并优于多种时间 - 频率掩码方法和经过主观和客观质量评估的最佳时间 - 频率幅度掩码,对于离线和实时语音分离应用都有较小的模型尺寸和更短的最小延迟。
Sep, 2018
本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC,其通过残差连接和时间分类损失函数,能够同时利用语音信号的时间和光谱结构,并提出了一种 CTC-based 系统组合方法,可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。
Feb, 2017
本文提出了一种时空神经滤波器,通过方向信息的辅助作用,从具有混响的多人语音混合物中直接估计目标语音波形,以提高目标和干扰源之间的时域、频域和空域可辨识度,并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。
Jan, 2020
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
本文对 Conv-TasNet 进行了实证研究,并提出了基于非线性变体的编码器 / 解码器改进方法,实验表明这种改进可以将平均 SI-SNR 性能提高 1 dB 以上。此外,我们还探讨了 Conv-TasNet 的泛化能力和改进编码器 / 解码器的潜在价值。
Feb, 2020
本研究提出了一种名为 DC-TCN 的方法,使用密集连接的时间卷积网络和轻量级的 Squeeze-and-Excitation 注意力机制来进行单词的唇语识别,取得了 88.36%和 43.65%的识别准确率,超越了其他基准方法,成为两个数据集的新的最先进技术。
Sep, 2020
本研究提出了一种新的深度复合卷积循环网络(DCCRN)结构来有效训练语音增强中的复杂目标,使得模型在客观和主观指标上都具有很高的性能,且在 Interspeech 2020 中 MOS 评分在实时组别中排名第一,在非实时组别中排名第二,其参数数量仅为 3.7M。
Aug, 2020
本文利用全卷积网络 (FCN) 来处理语音信号的混响问题,提出了用 U-Net 和 GAN 算法来处理时频短时傅里叶变换 (STFT) 表示的语音信号。通过与其他算法的比较,结果表明本文提出的方法在大多数情况下表现更好。
Mar, 2018