TasNet: 用于实时单声道语音分离的时域音频分离网络
该论文介绍了一个名为Conv-TasNet的深度学习框架,可用于端到端的语音分离,通过一系列线性编码器和加权函数(掩码),Conv-TasNet可以显著地提高两个和三个扬声器混合声音的分离能力,并优于多种时间-频率掩码方法和经过主观和客观质量评估的最佳时间-频率幅度掩码,对于离线和实时语音分离应用都有较小的模型尺寸和更短的最小延迟。
Sep, 2018
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音/非语音分离方面,长窗口的STFT(25-50毫秒)效果明显好于短窗口(2.5毫秒),对于可学习的基础来说,短窗口(2.5毫秒)一直是最佳选择。作者的最佳 方法在语音/非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019
本文提出了一种名为 DPRNN 的新型深度循环神经网络机制,它通过将输入序列分成较小的块并迭代应用区域内和区域间操作来模拟极长序列。实验结果表明,在使用 DPRNN 和在时域中应用样本级建模的 TasNet 中,相对于之前的最佳系统,使用比原来小 20 倍的模型在 WSJ0-2mix 上实现了新的最先进性能。
Oct, 2019
本文对Conv-TasNet进行了实证研究,并提出了基于非线性变体的编码器/解码器改进方法,实验表明这种改进可以将平均SI-SNR性能提高1 dB以上。此外,我们还探讨了Conv-TasNet的泛化能力和改进编码器/解码器的潜在价值。
Feb, 2020
通过使用自我关注机制和在分维度上的特征序列处理,设计了一种低成本、高性能的全局关注局部循环 (GALR) 网络,并在三个数据集上实现了相对于 DPRNN 的显著绝对改进,同时相对 DPRNN 降低了运行时内存使用和计算操作次数。
Jan, 2021
该论文提出了一种使用教师-学生学习方法,采用逐层教学和目标偏移机制的超快速语音分离Transformer模型,相较于从头开始训练的小型Transformer模型,在LibriCSS数据集上,能够将语音分离的单词错误率(WER)降低5%以上,并利用更多的未标记语音数据实现超过10%的相对WER降低。
Apr, 2022
该研究介绍了一种建立在深度学习框架上的端到端时间域语音分离方法,称作基于通道感知音频分离网络(CasNet),其中引入由通道编码器生成的通道嵌入来解决混合语音中的通道问题,实验结果表明使用此方法的 CasNet 比传统无通道嵌入的 TasNet 有更好的效果。
Oct, 2022
本文提出了一种新颖的基于时频域的音视频语音分离方法:递归时频分离网络(RTFS-Net),通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模,并引入了独特的基于注意力的融合技术,以有效地整合音频和视觉信息,并利用声学特征的固有谱特性进行更清晰的分离。RTFS-Net在仅使用10%的参数和18%的MAC时,超越了先前的最先进方法。这是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。
Sep, 2023
语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域conformers(TD-Conformers)是DP方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时conformers更有效。提出了子采样层以进一步提高计算效率。最佳的TD-Conformer在WHAMR和WSJ0-2Mix基准测试上分别实现了14.6 dB和21.2 dB的SISDR改进。
Oct, 2023
通过借鉴Hybrid Demucs架构,本文提出了混合谱图时域音频分离网络(HS-TasNet),结合了频谱和波形域的优势,为实时低延迟的音乐应用展现了高效分离的潜力。
Feb, 2024