BriefGPT.xyz
Ask
alpha
关键词
rgb frames
搜索结果 - 5
基于大型视觉 - 语言模型的语义感知框架 - 事件融合式模式识别
整合 RGB 帧、事件流和语义标签的模式识别框架,利用预训练的大规模视觉 - 语言模型(CLIP)提取特征,并通过多模态 Transformer 网络集成这三种形式的特征,通过实验证明了 SAFE 模型的有效性。
PDF
7 months ago
仅使用 RGB 流进行时间动作检测
本文提出了一种基于单 RGB 流的简单而有效的一阶段时间动作检测器 DaoTAD,采用数据增强的方法 Image Level Data Augmentation(ILDA)来避免移除光流数据导致的性能下降,结果表明该方法在 ILDA 训练下
→
PDF
3 years ago
ECCV
记忆辅助的密集预测编码技术用于视频表示学习
本文介绍了一种自我监督的视频表示学习方法,使用 Memory-augmented Dense Predictive Coding(MemDPC)框架进行训练,能够高效地进行多个假设,模型在四个不同的下游任务中均达到了同类模型中最佳的性能,具
→
PDF
4 years ago
MM
使用统计矩和子空间描述符进行自监督动作识别
本研究提出利用自我监督学习来预测动作概念和辅助描述符,设计并幻化了两种描述符,分别利用图像和视频级别显著性检测器以及四种流行的目标检测器应用于训练视频。通过在中间描述符上捕获四个统计时刻,本文在 Charades 和 EPIC-Kitche
→
PDF
4 years ago
利用时间和深度信息进行多帧人脸反欺骗
该研究提出了一种新的基于多个 RGB 帧估计深度信息的深度监督架构,用以编码面部攻击检测的时空信息,包括两个新颖的模块:光流引导特征块和卷积门循环单元模块,可以提取短期和长期运动以区分活体和欺骗面部。实验结果表明,该方法在四个基准数据集(O
→
PDF
6 years ago
Prev
Next