一种基于递归融合扩张卷积和信道注意力的高效语音分离网络
本论文提出采用一种名为全循环卷积神经网络(Fully Recurrent Convolutional Neural Network, FRCNN)的生物启发式体系结构来解决语音分离任务,并通过异步更新机制,在三个基准数据集上显著提高了语音分离精度和计算效率。
Dec, 2021
该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络(DPCFCS-Net), 在 VCTK+DEMAND 数据集上表现优于现有技术,其改进的密集连接块和二维注意力模块易于集成到现有网络中,具有更高的适应性。
Jun, 2023
本文提出了几种深度卷积网络,包括多尺度动态加权门控扩展金字塔网络(FurcaPy)、带有 Intra-Parallel 卷积组件的门控 TCN(FurcaPa)、共享权重的多尺度门控 TCN(FurcaSh)以及带有门控差异卷积分量的扩张 TCN(FurcaSu)并进行了直接最优化 utterance 级别的信号失真比(SDR)的训练。在公共 WSJ0-2mix 数据语料库上进行的实验表明,这些网络提高了 18.4dB 的 SDR,显示出对演讲者分离任务性能的改进。
Feb, 2019
提出了一种新的神经网络模型体系结构 Multi-Stream Self-Attention,通过进一步处理高度相关的语音传输帧来提高自我关注在语音识别中的效果,并在 LibriSpeech 语料库的测试干净数据集上实现了 2.2%的单词错误率,是迄今为止报告的最佳数字。
Oct, 2019
本文研究了 DeepFake Audio 从检测角度进行了研究,并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时,我们也通过使用 SE 块和 LFCC/MFCC 的结合,改进了 Resnet 模型,并提出了更好的输入特征嵌入方式,使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练,我们的模型在 FoR 数据上能够获得 95%的测试准确度,并在使用不同的生成模型生成样本后适应该框架后,达到了 90%的平均准确度。
Oct, 2022
本文提出了一种多路径编码器结构来提取多路径输入的特征,多路径注意力融合块模块来融合多路径特征,以及细化注意力融合块模块来融合高层抽象特征和低层空间特征。同时,提出了一种新的卷积神经网络架构,名为注意力融合网络 (AFNet)。基于该 AFNet,在 ISPRS Vaihingen 2D 数据集上达到了 91.7% 的整体精度和 90.96% 的平均 F1 分数,在 ISPRS Potsdam 2D 数据集上达到了 92.1% 的整体精度和 93.44% 的平均 F1 分数,取得了最先进的性能。
May, 2021
在本文中,我们提出了一种名为 TDFNet 的音视频语音分离模型,该模型建立在 TDANet 架构基础上,以更高效的方式实现声音和图像网络的融合,使得在音视频领域的语音分离具有更高效和高效的解决方案,并在性能上显著超越了以前的最先进方法 CTCNet。
Jan, 2024
本文提出一种利用卷积神经网络中的基于注意力的动态卷积核来提高模型分辨率能力的方法,将模型参数适应于特征条件,通过通道注意力和多层特征聚合进一步提取全局语音特征,从而提高特征表示效果。实验结果表明,该方法在使用较少数据的情况下取得了良好的识别效果。
Nov, 2022
通过引入轻量级的关注网络,以及多尺度特征融合,本研究的主要目标是克服在实际应用中计算复杂性和多视角头部姿势方面所面临的挑战,该方法在参数数量和对姿势变化的鲁棒性方面达到了业界先进方法的水平。
Mar, 2024