低资源说话者验证的动态核和通道注意力
本研究提出了一种自适应地选择卷积核大小的机制(SKA),通过利用频道信息和注意力机制,改进了现有的演讲者验证体系结构,且在三种不同的评估协议中经过充分的实验验证,改进后的 SKA 变体的表现持续提高,并具备良好的互补性。
Apr, 2022
提出一种名为 Dynamic Convolution 的新设计,基于卷积核的注意力动态地聚合多个并行卷积核,从而增加模型复杂度,提高卷积神经网络的表示能力,有效提高 MobileNetV3-Small 模型在 ImageNet 分类任务上的精度。
Dec, 2019
本文提出了一种基于统计汇聚、1D Res2Net 模块和 Squeeze-and-Excitation 机制等增强方法的 ECAPA-TDNN 神经网络架构,利用此架构改进了当前流行的 X-Vector 神经网络架构,显著提高了说话人识别性能。
May, 2020
提出了一种新的神经网络模型体系结构 Multi-Stream Self-Attention,通过进一步处理高度相关的语音传输帧来提高自我关注在语音识别中的效果,并在 LibriSpeech 语料库的测试干净数据集上实现了 2.2%的单词错误率,是迄今为止报告的最佳数字。
Oct, 2019
当前的多通道语音增强算法通常假设声源是固定的,这与现实不符,限制了它们在实际场景中的性能。本文聚焦于为动态环境设计的基于注意力的空间滤波技术。具体地,我们研究了线性和非线性注意力方法在估计时变空间协方差矩阵以设计滤波器时的应用。我们还研究了通过注意力方法直接估计空间滤波器,而无需明确估计空间统计数据。使用 WSJ0 中的干净语音片段模拟在混响环境中移动发声者的语音信号生成实验数据集,其中混合了 CHiME-3 中的多通道真实噪声。评估结果表明,基于注意力的方法在静态和动态声音环境中均表现出鲁棒性,并始终优于传统的空间滤波方法。
Dec, 2023
本文提出了一种新颖的动态卷积嵌入模型 ConvD,用于知识图谱补全,并通过将关系嵌入重塑为多个内部卷积核,改善传统卷积嵌入模型的外部卷积核,有效增强了关系嵌入与实体嵌入之间的特征交互,进一步提高了模型的表达能力。通过广泛的实验证明,我们提出的模型在各种数据集上始终优于最先进的基线方法,平均改进范围从 11.30% 到 16.92%。消融实验证实了 ConvD 模型的每个组件模块的有效性。
Dec, 2023
本文介绍了一种高效的语音分离神经网络,采用了扩张卷积、多尺度融合和通道注意力等多种方法,可以克服卷积网络的有限感受野和变换器网络的高计算成本问题,实现局部和全局特征的学习,并通过通道的注意力权重学习关键的特征来提高网络的表达能力和鲁棒性,实验结果表明,该模型在性能和计算效率之间取得了不错的平衡,是目前实际应用的有希望的选择。
Jun, 2023
本研究提出了多尺度频道注意力机制(MFA),其采用新颖的双通道设计,即卷积神经网络和时延神经网络,可用于对不同尺度的讲话者进行表征,并在短语态测试语句下表现出优异的成绩,其在 VoxCeleb 数据库上表现出最先进的性能,同时减少了参数和计算复杂度。
Feb, 2022
本文介绍了一个使用卷积循环神经网络与注意力机制的语音指令识别模型,其创造了 94.1%(V1)和 94.5%(V2)的分类准确率,是同类模型中的新记录,并且该模型仅有 202K 个可以训练的参数,同时其提出的注意力机制不仅提高了性能,还允许可视化网络处理输入音频时所参考的区域。
Aug, 2018
本文研究了使用自我关注(self-attention)和动态卷积(dynamic convolutions)两种机制建立语言和图像生成模型的效率以及准确性问题,并证明了动态卷积在大规模机器翻译、语言模型和提取式摘要等任务中的表现优于强的自我关注模型,得到了 WMT'14 英德测试集中 29.7 BLEU 的最高分。
Jan, 2019