Nov, 2023

基于大型视觉 - 语言模型的语义感知框架 - 事件融合式模式识别

TL;DR整合 RGB 帧、事件流和语义标签的模式识别框架,利用预训练的大规模视觉 - 语言模型(CLIP)提取特征,并通过多模态 Transformer 网络集成这三种形式的特征,通过实验证明了 SAFE 模型的有效性。