一种基于递归融合扩张卷积和信道注意力的高效语音分离网络

Jun, 2023

一种基于递归融合扩张卷积和信道注意力的高效语音分离网络

An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention

Junyu Wang

TL;DR本文介绍了一种高效的语音分离神经网络，采用了扩张卷积、多尺度融合和通道注意力等多种方法，可以克服卷积网络的有限感受野和变换器网络的高计算成本问题，实现局部和全局特征的学习，并通过通道的注意力权重学习关键的特征来提高网络的表达能力和鲁棒性，实验结果表明，该模型在性能和计算效率之间取得了不错的平衡，是目前实际应用的有希望的选择。

Abstract

We present an efficient speech separation neural network, ARFDCN, which combines dilated convolutions, →

speech separation neural network dilated convolutions multi-scale fusion channel attention

发现论文，激发创造

使用异步完全循环卷积神经网络进行语音分离

本论文提出采用一种名为全循环卷积神经网络（Fully Recurrent Convolutional Neural Network, FRCNN）的生物启发式体系结构来解决语音分离任务，并通过异步更新机制，在三个基准数据集上显著提高了语音分离精度和计算效率。

Dec, 2021

语音增强中高效编码器 - 解码器和双通道 Conformer 的综合特征学习

该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络（DPCFCS-Net）, 在 VCTK+DEMAND 数据集上表现优于现有技术，其改进的密集连接块和二维注意力模块易于集成到现有网络中，具有更高的适应性。

Jun, 2023

FurcaNeXt: 动态门控扩张时间卷积网络的端到端单声道语音分离

本文提出了几种深度卷积网络，包括多尺度动态加权门控扩展金字塔网络（FurcaPy）、带有 Intra-Parallel 卷积组件的门控 TCN（FurcaPa）、共享权重的多尺度门控 TCN（FurcaSh）以及带有门控差异卷积分量的扩张 TCN（FurcaSu）并进行了直接最优化 utterance 级别的信号失真比（SDR）的训练。在公共 WSJ0-2mix 数据语料库上进行的实验表明，这些网络提高了 18.4dB 的 SDR，显示出对演讲者分离任务性能的改进。

Feb, 2019

基于可变形时间卷积神经网络的单声道嘈杂混响语音分离

本研究提出了一种新的方法，使用可变形卷积解决了语音分离领域中存在固定跨度的问题，通过应用此方法，研究人员获得了优秀的性能。

Oct, 2022

使用多流自注意力和扩张一维卷积的最先进语音识别技术

提出了一种新的神经网络模型体系结构 Multi-Stream Self-Attention，通过进一步处理高度相关的语音传输帧来提高自我关注在语音识别中的效果，并在 LibriSpeech 语料库的测试干净数据集上实现了 2.2％的单词错误率，是迄今为止报告的最佳数字。

Oct, 2019

针对对抗音频分类的通道特征自适应重新校准

本文研究了 DeepFake Audio 从检测角度进行了研究，并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时，我们也通过使用 SE 块和 LFCC/MFCC 的结合，改进了 Resnet 模型，并提出了更好的输入特征嵌入方式，使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练，我们的模型在 FoR 数据上能够获得 95％的测试准确度，并在使用不同的生成模型生成样本后适应该框架后，达到了 90％的平均准确度。

Oct, 2022

用于语义分割的融合注意力网络，在极高分辨率遥感图像中的应用

本文提出了一种多路径编码器结构来提取多路径输入的特征，多路径注意力融合块模块来融合多路径特征，以及细化注意力融合块模块来融合高层抽象特征和低层空间特征。同时，提出了一种新的卷积神经网络架构，名为注意力融合网络 (AFNet)。基于该 AFNet，在 ISPRS Vaihingen 2D 数据集上达到了 91.7% 的整体精度和 90.96% 的平均 F1 分数，在 ISPRS Potsdam 2D 数据集上达到了 92.1% 的整体精度和 93.44% 的平均 F1 分数，取得了最先进的性能。

May, 2021

TDFNet：一种高效的音频 - 视觉语音分离模型与自顶向下融合

在本文中，我们提出了一种名为 TDFNet 的音视频语音分离模型，该模型建立在 TDANet 架构基础上，以更高效的方式实现声音和图像网络的融合，使得在音视频领域的语音分离具有更高效和高效的解决方案，并在性能上显著超越了以前的最先进方法 CTCNet。

Jan, 2024

低资源说话者验证的动态核和通道注意力

本文提出一种利用卷积神经网络中的基于注意力的动态卷积核来提高模型分辨率能力的方法，将模型参数适应于特征条件，通过通道注意力和多层特征聚合进一步提取全局语音特征，从而提高特征表示效果。实验结果表明，该方法在使用较少数据的情况下取得了良好的识别效果。

Nov, 2022

一种基于多尺度特征融合的轻量级注意力深度网络用于多视角面部表情识别

通过引入轻量级的关注网络，以及多尺度特征融合，本研究的主要目标是克服在实际应用中计算复杂性和多视角头部姿势方面所面临的挑战，该方法在参数数量和对姿势变化的鲁棒性方面达到了业界先进方法的水平。

Mar, 2024