Conv-TasNet的实证研究
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
本文针对多说话人环境下的鲁棒语音处理,提出了使用时域音频分离网络 (TasNet)直接对信号进行建模,通过编码器输出估计源掩码、并经过解码器进行合成的方法,该方法适用于实时应用,并能在低功耗情况下完成语音分离任务,是当前最先进的语音分离算法之一。
Nov, 2017
该论文阐述了 Tacotron 2 的神经网络框架,该框架可以从文本中直接合成语音,其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成,能够实现与专业录制的语音相当的平均意见分数 (MOS)。
Dec, 2017
该论文介绍了一个名为Conv-TasNet的深度学习框架,可用于端到端的语音分离,通过一系列线性编码器和加权函数(掩码),Conv-TasNet可以显著地提高两个和三个扬声器混合声音的分离能力,并优于多种时间-频率掩码方法和经过主观和客观质量评估的最佳时间-频率幅度掩码,对于离线和实时语音分离应用都有较小的模型尺寸和更短的最小延迟。
Sep, 2018
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音/非语音分离方面,长窗口的STFT(25-50毫秒)效果明显好于短窗口(2.5毫秒),对于可学习的基础来说,短窗口(2.5毫秒)一直是最佳选择。作者的最佳 方法在语音/非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019
本文比较了两种不同的音乐源分离模型:Conv-Tasnet和Demucs。实验结果表明,Demucs模型通过采用恰当的数据增广技术,在音乐分离任务上优于Conv-Tasnet模型,同时其语音自然度表现也更佳。
Nov, 2019
本研究描述了一种序列到序列的神经网络,可以直接将文本输入转化为语音波形,具备较快的语音生成速度,而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合,对输出波形进行建模,并能够处理长期依赖关系。实验证明,所提出的模型的语音生成质量接近最新的神经网络TTS系统,并具有明显的加速优势。
Nov, 2020
通过使用自我关注机制和在分维度上的特征序列处理,设计了一种低成本、高性能的全局关注局部循环 (GALR) 网络,并在三个数据集上实现了相对于 DPRNN 的显著绝对改进,同时相对 DPRNN 降低了运行时内存使用和计算操作次数。
Jan, 2021
该研究介绍了一种建立在深度学习框架上的端到端时间域语音分离方法,称作基于通道感知音频分离网络(CasNet),其中引入由通道编码器生成的通道嵌入来解决混合语音中的通道问题,实验结果表明使用此方法的 CasNet 比传统无通道嵌入的 TasNet 有更好的效果。
Oct, 2022
通过在 NAC 的嵌入空间中进行音频编码器(Codec)的语音分离(SS)任务,我们提出了一种新的模型 Codecformer,在推断过程中实现了 52 倍的 MAC 降低,并且产生了与 Sepformer 云部署相当的分离性能,为在实际场景中实现高效的 SS 打开了新的方向。
Jun, 2024