本研究提出了一种空时多线索(STMC)网络,采用多线索学习方法解决了视觉序列学习问题,并在三个大规模连续手语识别基准测试上取得了新的最先进表现。
Feb, 2020
基于 BiseNet 的多尺度协方差特征融合网络 (MCFNet) 提出了一种新的架构,引入了新的特征细化模块和特征融合模块,并提出了名为 L-Gate 的门控单元来过滤无效信息和融合多尺度特征,实验结果显示我们的方法在 Cityscapes 和 CamVid 数据集上取得了竞争性的成功,其中在 Cityscapes 数据集上获得了 75.5% 的平均交并比 (mIOU) 和 151.3FPS 的速度。
Dec, 2023
本文提出了一种扩展的单通道实时语音增强框架 FullSubNet+,采用了轻量级多尺度时间敏感通道注意力 MulCA 模块、全幅值、实部与虚部谱图作为输入以充分利用噪声语音中的相位信息、以及用时序卷积网络块(TCN)替换原先的长短期记忆层的全幅模型,其在 DNS 挑战数据集中表现优越,达到了最先进的性能并优于其他现有语音增强方法。
Mar, 2022
本文提出了一种新的多模态融合方法,通过整合来自多种媒体的信息产生最佳决策。该方法通过引入一个中央网络来连接模态特定网络,提供了一个公共特征嵌入和模态特定网络的正则化,其性能经过验证在四个不同的计算机视觉任务中得到了改进。
Aug, 2018
在语音增强领域,我们提出了一种称为频谱注意力融合的方法,通过使用卷积模块替换自注意力层,提高了模型的计算效率,从而实现了与先进模型相媲美的结果,但参数规模更小(0.58M)的目标。
Aug, 2023
本文提出了一种利用空间信息增强神经波束形成器性能的目标语音提取网络,该网络采用 UNet-TCN 结构模拟输入特征,并通过引入多头交叉注意力机制来利用阵列接收到的空间信息,实现了更合理的目标掩蔽估计网络和基于空间信息的交叉注意力机制,有效提高语音分离性能。
Jun, 2023
通过多模态特征的最优选择和融合,并结合神经网络以提高情感检测,我们比较了不同的融合方法,并研究了多损失训练对多模态融合网络中子网络性能的影响,发现了与子网络性能相关的有用发现。我们的最佳模型在三个数据集(CMU-MOSI、CMU-MOSEI 和 CH-SIMS)中达到了最先进的性能,并在大多数指标上优于其他方法。我们发现在多模态特征上进行训练可以提高单模态测试的性能,并且基于数据集注释模式设计融合方法可以增强模型性能。这些结果表明了在神经网络中优化特征选择和融合方法以增强情感检测的路线图。
本文提出了一种全频带和子频带融合模型 FullSubNet,用于单通道实时语音增强,实验结果表明 FullSubNet 可以有效整合全频带和子频带信息,并在 DNS 挑战(INTERSPEECH 2020)中达到了最佳成绩。
Oct, 2020
本文提出了一种新的多模态语音和文本输入结构,使用多头交叉注意力结合预训练语音和文本编码器,并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测,并高效地捕获声学 - 韵律和词汇信息。
Apr, 2022
通过频率引导的注意力机制,交叉注意力融合和损失函数来实现多模式医学图像融合,提高融合图像的质量和保留细节。
Oct, 2023