基于大型视觉 - 语言模型的语义感知框架 - 事件融合式模式识别

Nov, 2023

基于大型视觉 - 语言模型的语义感知框架 - 事件融合式模式识别

Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large Vision-Language Models

Dong Li, Jiandong Jin, Yuhao Zhang, Yanlin Zhong, Yaoyang Wu...

TL;DR整合 RGB 帧、事件流和语义标签的模式识别框架，利用预训练的大规模视觉 - 语言模型（CLIP）提取特征，并通过多模态 Transformer 网络集成这三种形式的特征，通过实验证明了 SAFE 模型的有效性。

Abstract

pattern recognition through the fusion of rgb frames and event streams has emerged as a novel research area in recent years. Current metho

pattern recognition rgb frames event streams large-scale vision-language models safe model

发现论文，激发创造

释放 CNN 和 Transformer 在平衡的 RGB - 事件视频识别中的力量

基于 RGB-Event 数据的模式识别是一个新兴的研究课题，本文提出了一种相对轻量级的 CNN-Transformer 模型 TSCFormer，该模型在全局和本地特征提取上取得了平衡，经过大规模实验证实了其有效性。

Dec, 2023

SSTFormer：连接脉冲神经网络和具备记忆支持的转换器用于基于帧事件的识别

通过融合 RGB 帧和事件流的模式识别框架，在事件相机模式识别领域取得了有效的结果，同时还提出了一个大规模的 PokerEvent 数据集，促进了模式识别的发展。

Aug, 2023

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

基于不确定性感知的桥接式移动 Former 网络用于基于事件的模式识别

基于事件流的轻量级不确定性感知信息传播的 Mobile-Former 网络用于有效的模式识别，对多个事件识别数据集进行了广泛实验验证。

Jan, 2024

CLIP-Event: 连接文本和图像的事件结构

本文提出了一种对视觉语言预训练模型进行对事件及相关参数角色理解的对比学习框架，并结合文本信息提取技术，利用多个提示函数来构造事件结构，设计基于最优传输的事件图形对齐损失来捕获事件参数结构，通过无监督学习进行预训练，并在零样本的情况下取得了优秀的性能。

Jan, 2022

基于学习瓶颈变换器的事件图像体素特征融合分类

该研究提出了一个新颖的双流框架，用于事件表示、提取和融合，通过利用 Transformer 和结构化图神经网络（GNN）架构，分别可以学习空间信息和三维立体信息，并引入瓶颈 Transformer 以促进双流信息的融合，通过广泛实验证明了该框架在两个广泛使用的事件分类数据集上取得了最先进的性能。

Aug, 2023

保留、融合和交换：一种面向事件流识别的质量感知空间立体融合方法

本文提出了一种新颖的双流框架 EFV++，通过差异化融合来进行基于事件流的模式识别，同时对事件图像和事件体素这两种常见的事件表示进行建模，利用 Transformer 和图神经网络分别学习空间和三维立体信息，并通过高质量特征、中质量特征和低质量特征的划分、融合和替换来增强双特征，最终使用混合交互读取机制来增强特征的多样性作为最终表示。大量实验表明，我们提出的框架在多个广泛使用的基于事件流的分类数据集上实现了最先进的性能，特别是在 Bullying10k 数据集上取得了新的最佳性能，达到了 90.51%，超过第二名 2.21%。本文的源代码已在 https://github.com/Event-AHU/EFV_event_classification/tree/EFVpp 上发布。

Jun, 2024

事件相机数据密集预训练

本文介绍了一种自监督学习框架，用于预训练针对密集预测任务的神经网络，该框架使用事件相机数据进行训练，并在转移学习方面展现出卓越性能。

Nov, 2023

长期框架 - 事件视觉跟踪：基准数据集和基线

提出了一个新的长期和大规模帧事件单目标跟踪数据集（FELT），该数据集包含 742 个视频和 1,594,474 个 RGB 帧和事件流对，已成为迄今为止最大的帧事件跟踪数据集。通过引入现代 Hopfield 层到多头自注意力块中的联想记忆 Transformer 网络来融合 RGB 和事件数据，验证了模型的有效性。

Mar, 2024

重新审视基于事件的视频帧插值

利用动态视觉传感器或事件相机进行视频帧插值，结合 RGB 信息的事件引导光流细化策略和分阶段的中间帧合成策略，可以获得比先前的视频帧插值方法更可靠和更真实的中间帧结果。

Jul, 2023