Conv-TasNet 的实证研究
该论文介绍了一个名为 Conv-TasNet 的深度学习框架,可用于端到端的语音分离,通过一系列线性编码器和加权函数(掩码),Conv-TasNet 可以显著地提高两个和三个扬声器混合声音的分离能力,并优于多种时间 - 频率掩码方法和经过主观和客观质量评估的最佳时间 - 频率幅度掩码,对于离线和实时语音分离应用都有较小的模型尺寸和更短的最小延迟。
Sep, 2018
本文针对多说话人环境下的鲁棒语音处理,提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模,通过编码器输出估计源掩码、并经过解码器进行合成的方法,该方法适用于实时应用,并能在低功耗情况下完成语音分离任务,是当前最先进的语音分离算法之一。
Nov, 2017
该研究介绍了一种建立在深度学习框架上的端到端时间域语音分离方法,称作基于通道感知音频分离网络 (CasNet),其中引入由通道编码器生成的通道嵌入来解决混合语音中的通道问题,实验结果表明使用此方法的 CasNet 比传统无通道嵌入的 TasNet 有更好的效果。
Oct, 2022
使用时间 - 深度可分离卷积块、卷积语言模型以及有效的 beam 搜索方法,相对于先前的序列到序列结果,在 LibriSpeech 测试集中语音识别效果提高了 22%。
Apr, 2019
通过对 ConvTasnet 和 DPT-Net 模型进行滤波等探究,揭示了基于谐波关系的语音分离端到端模型机制,发现这些网络在遭遇人类无法感知的变形时表现不佳,并且 pinpoints 编码器作为网络不稳定性的来源。
Jun, 2022
本文介绍了一种新的时间域音视图架构,用于从单声道混合物中提取目标说话人,实验结果表明,相比于仅有声音的 TasNet 和频域音 - 视网络,我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。
Apr, 2019
我们提出了 CONF-TSASR,这是一种非自回归的端到端时间 - 频率域架构,用于单通道目标人说话者自动语音识别(TS-ASR)。该模型包括基于 TitaNet 的说话者嵌入模块,基于 Conformer 的掩蔽和 ASR 模块,通过联合优化这些模块来转录目标说话者的语音,忽略其他讲话者的语音。通过使用连接主义时间分类(CTC)损失进行训练,并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr(4.2%)数据集上,我们获得了最先进的目标说话者词错误率(TS-WER)。此外,我们首次报告了 WSJ0-3mix-extr(12.4%),LibriSpeech2Mix(4.2%)和 LibriSpeech3Mix(7.6%)数据集上的 TS-WER,为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。
Aug, 2023
描述了一个基于神经网络的文本转语音(TTS)合成系统,可以以许多不同讲话者的声音生成语音音频,该系统由三个独立训练的部分组成,包括训练说话者编码器网络进行讲话者验证任务,基于 Tacotron 2 的序列合成网络,以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。
Jun, 2018
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音 / 非语音分离方面,长窗口的 STFT(25-50 毫秒)效果明显好于短窗口(2.5 毫秒),对于可学习的基础来说,短窗口(2.5 毫秒)一直是最佳选择。作者的最佳 方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019