跨光谱 - 空间 - 时间领域的多尺度特征融合用于声音事件定位和检测

Jun, 2024

跨光谱 - 空间 - 时间领域的多尺度特征融合用于声音事件定位和检测

MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection

PDF

Da Mu, Zhicheng Zhang, Haobo Yue

TL;DR本文针对声音事件定位和检测（SELD）提出了一个名为多尺度特征融合（MFF）模块的三阶段网络结构，以有效地提取跨光谱、空间和时间域的多尺度特征。将 MFF 模块融入 EINV2 网络，提出了 MFF-EINV2 方法，并在 2022 和 2023 的 DCASE 挑战任务 3 数据集上进行了实验证明了我们方法的有效性，达到了同类方法的最新性能水平（SOTA）。

Abstract

sound event localization and detection (seld) involves detecting and localizing sound events using multichannel sound recordings. Previously proposed Event-Independent Network V2 (→

sound event localization and detection seld multi-scale feature fusion einv2 mff-einv2

发现论文，激发创造

利用空间特征和卷积循环神经网络进行声音事件检测

本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测，通过初始阶段从每个通道中单独学习这些多通道特征，扩展了卷积递归神经网络以处理更多类型的这些特征，并表明将特征呈现为体积的单独层，而不是将每个通道的特征串联成单个特征向量，可以更好地学习多通道音频中的声音事件。与单声道特征相比，在相同网络上使用所提出的空间特征，在公开可用的 TUT-SED 2016 数据集上的 F-score 提高了 6.1％，在 TUT-SED 2009 数据集上的 F-score 提高了 2.7％，该数据集是其 15 倍大。

Jun, 2017

SFFNet：基于小波的遥感分割的空间和频域融合网络

为了充分利用空间信息进行分割并解决遥感图像中灰度变化显著区域的挑战，我们提出了 SFFNet（Spatial and Frequency Domain Fusion Network）框架。该框架采用两阶段网络设计：第一阶段使用空间方法提取特征，以获取具有足够空间细节和语义信息的特征；第二阶段在空间和频域中映射这些特征。在频域映射中，我们引入了小波变换特征分解器（WTFD）结构，该结构使用 Haar 小波变换将特征分解为低频和高频成分，并将其与空间特征进行融合。为了弥合频域和空域特征之间的语义差距，并便于进行显著特征选择以促进来自不同表示域的特征组合，我们设计了多尺度双重表示对齐滤波器（MDAF）。该结构利用多尺度卷积和双交叉注意力机制。全面的实验结果表明，与现有方法相比，SFFNet 在 mIoU 方面表现出卓越性能，分别达到 84.80% 和 87.73%。

May, 2024

基于显著性增强特征融合的多尺度 RGB-D 显著目标检测网络

本文针对 RGB-D 显著性检测问题，提出了一种定制化的特征融合模块 SEFF，通过利用邻近尺度的显著性图来增强融合所需的特征，得到更具代表性的融合特征。我们的多尺度 RGB-D 显著性检测器使用 SEFF 处理三个不同尺度的图像，并将 RGB 和深度图像的特征以及不同尺度解码器的特征进行融合。在五个基准数据集上进行的大量实验证明了我们方法在显著性检测上的优越性。

Jan, 2024

三通道运动想象分类中的时空频特征融合

本研究介绍了一种新的网络架构 TSFF-Net，它集成了时间 - 空间 - 频率特征，有效地弥补了基于时间序列和时频模态的单模特征提取网络的局限性，用于解码三通道运动想象的分类，结果表明，TSFF-Net 在 EEG 解码方面具有显著优势并为算法增强低通道 EEG 解码提供了有价值的洞见。

Apr, 2023

具视觉注意力的拼接定位网络：多领域特征提取器和多感受野上采样器

本研究提出了一种名为 “具有视觉关注的多领域特征提取器和多接受域上采样器的图像拼接定位网络” 的新颖方法，它包含了一种独特的 “具有视觉关注的多领域特征提取器”（VA-MDFE），用于从 RGB、边缘和深度领域提取注意力特征。接下来，负责融合和下采样多领域特征的是 “具有视觉关注的下采样器”（VA-DS）。最后，一种新颖的 “具有视觉关注的多接受域上采样器”（VA-MRFU）模块通过专注于不同的信息尺度，使用基于接受域的多个卷积方法来上采样注意力特征。实验结果在公共基准数据集 CASIA v2.0 上证明了该模型的有效性。相较于现有的最先进方法，它在 IoU 得分达到 0.851，像素 F1 得分达到 0.9195，像素 AUC 得分达到 0.8989，表现优越。

Jan, 2024

少样本声音事件检测的多任务帧级学习

通过使用创新的多任务帧级音频事件检测框架和线性定时遮罩进行数据增强，提高模型对多样音频环境的适应性和鲁棒性，本研究在 2023 声音场景和事件检测与分类挑战赛的 few-shot 生物声学事件检测类别中实现了 63.8% 的 F 分数，获得第一名。

Mar, 2024

利用空间和谐特征在多通道音频中进行声音事件检测

本文提出使用空间和谐特征结合 LSTM 循环神经网络进行自动声音事件检测任务，并将其与现有的单声道方法进行比较，结果表明使用多声道音频、空间和谐特征的自动声音事件检测方法能够提高检测性能。

Jun, 2017

一种用于零样本增量学习的新型空间频域网络

本文提出了一种新颖的基于空间频率领域网络（SFDNet）的零样本增量学习方法，其中包含了空间频率特征提取模块（SFFE）和注意力特征对齐模块（AFA），通过从样本图像领域捕捉重要信息，提高零样本转换分类增量算法的性能。该网络能够有效地提取图像的空间频率特征表示，提高图像分类的准确性，并从根本上缓解了灾难性遗忘。针对 CUB 200-2011 和 CIFAR100 数据集的广泛实验表明，我们提出的算法胜过了最先进的增量学习算法。

Feb, 2024

低光遥感图像增强的空域频率二重域特征融合网络

提出了一种用于低光遥感图像增强的双域特征融合网络 (DFFN)，通过将振幅信息与相位信息分别学习来实现低光增强任务，同时通过信息融合亲和块在不同阶段和尺度上组合不同的数据，通过广泛的评估，证明该方法优于现有最先进方法。

Apr, 2024

频率感知记忆增强下的动态红外小目标检测中的三域特征学习

以三个领域（时空域、频域和频率感知域）的目标特征学习为基础，提出了一种新的频率感知记忆增强方法（Tridos）来有效检测红外小目标，并通过实验证明其优于现有方法。

Jun, 2024