Mamba-FETrack: 基于状态空间模型的帧事件跟踪
提出了一个新的长期和大规模帧事件单目标跟踪数据集(FELT),该数据集包含 742 个视频和 1,594,474 个 RGB 帧和事件流对,已成为迄今为止最大的帧事件跟踪数据集。通过引入现代 Hopfield 层到多头自注意力块中的联想记忆 Transformer 网络来融合 RGB 和事件数据,验证了模型的有效性。
Mar, 2024
该论文提出了使用多模方式结合 RGB-based trackers 和 event-based cameras 进行 high frame rate tracking 的方法,并应用 multi-modality alignment 和 fusion modules 对两种模式的信息进行融合。在 FE240hz 数据集上,该方法表现优异,实现了高达 240Hz 的高帧率追踪。
May, 2023
本文研究通过对改进的 Mamba 与门控机制在隐藏状态空间中关联交叉模态特征,设计了一个融合 Mamba 块(FMB)来将交叉模态特征映射到隐藏状态空间进行交互,从而降低交叉模态特征的差异性并增强融合特征的表征一致性;通过在公共数据集上进行大量实验证明,我们提出的方法在 $m$AP 上超过了 5.9%的 $M^3FD$ 和 4.9%的 FLIR-Aligned 数据集,展现出卓越的目标检测性能。据我们所知,本文首次探索了 Mamba 在跨模态融合中的潜力,并为跨模态目标检测建立了一个新的基线。
Apr, 2024
本文提出了 MambaPupil 网络作为一种稳定的基于事件的眼动追踪系统,其采用双向长期序列建模和时变状态选择机制,充分利用上下文时间信息以适应眼动的多样性和突变性。该网络利用多层卷积编码器从事件表示中提取特征,采用双向门控循环单元(GRU)和线性时变状态空间模块(LTV-SSM)选择性地捕获正向和反向时间关系中的上下文相关性。此外,该网络使用 Bina-rep 作为紧凑的事件表示,并提出了名为 Event-Cutout 的特定数据增强方法,通过对事件图像进行空间随机掩盖来增强模型的稳健性。在 ThreeET-plus 基准测试中,MambaPupil 表现出卓越的性能,在 CVPR'2024 AIS 基于事件的眼动追踪挑战中获得第一名。
Apr, 2024
EventMamba 是一个高效和有效的点云框架,通过优化网络结构实现了对时间信息的提取,并在分类和回归任务中表现出与基于帧的方法相媲美的结果,同时具有轻量级设计原则,实现了卓越的效率和效果。
May, 2024
通过改进 RGB 模式的视觉对象跟踪,利用视觉事件相机的输出,特别是对场景运动特别有信息量的输出,本文通过引入一个适应事件数据固有特性的事件 backbone (Pooler),提出了一种高质量的特征表示方法,该方法利用多尺度池化来捕捉事件数据中的所有运动特征趋势,并通过一个创新的模块进行自适应互相指导融合(MGF),在两个广泛使用的 RGB-E 跟踪数据集上,我们的方法在精确度和成功率上分别提高了 4.9% 和 5.2%。
May, 2024
提出了一种基于 FusionMamba 的动态特征增强方法,用于多模式图像融合,具有与 Mamba 相同的性能和全局建模能力,同时降低通道冗余并增强本地增强能力。证明了该模型在各种多模式医学图像融合任务(CT-MRI、PET-MRI、SPECT-MRI)、红外和可见图像融合任务(IR-VIS)以及多模式生物医学图像融合数据集(GFP-PC)中具有泛化能力。
Apr, 2024
图像融合是通过将具有有限光谱信息的高分辨率图像与具有丰富光谱数据的低分辨率图像相结合,生成高分辨率的多 / 高光谱图像。本文提出了一种名为 FusionMamba 的创新方法,通过在两个 U 型网络中结合 Mamba 块,以一种高效、独立和分级的方式提取空间和光谱特征,进而有效地将空间和光谱信息进行融合,得到了优于其他融合技术的性能,证明了 FusionMamba 的有效性。
Apr, 2024
本文提出了一种名为 CEUTrack 的单阶段骨干网络,该网络通过 Transformer 骨干网络实现了特征提取、融合、匹配和互动学习等功能,用于对基于颜色和事件的物体进行跟踪。此外,我们还提出了一个大规模基准数据集 COESOT,并提出了一种新的评估指标 BOC。
Nov, 2022