BriefGPT.xyz
大模型
Ask
alpha
关键词
visual modalities
搜索结果 - 5
基于多模态混合特征提取和基于 Transformer 的融合的可靠物体跟踪
本研究提出了一种新型的多模态混合跟踪器 (MMHT),利用基于帧事件的数据进行可靠的单目标跟踪,通过使用人工神经网络(ANN)和脉冲神经网络(SNN)构建混合骨干,并使用增强的基于 Transformer 的模块通过注意机制融合多模态特征,
→
PDF
a month ago
视觉异常检测调研:挑战、方法和前景
对视觉异常检测进行了全面的调查,发现了样本数量、数据模态和异常层次结构等方面的主要挑战,并汇总了未来发展的方向和该调查的主要发现和贡献。
PDF
5 months ago
基于词性的视觉语言模型子空间
本文提出了一种通过语法组件分解学习 CLIP 模型中视觉 - 语言联合空间不同视觉模态的基本变化,从而获得解耦的图像和模态表示的方法,并证明其在图像合成和零样本分类方面的有效性。
PDF
a year ago
OmniMAE:图像和视频单模型遮蔽预训练
使用遮盖自编码器训练简单的 Vision Transformer,能够在多个视觉模态下获得与单一模态相当或更好的视觉表示,而只需使用单一的预训练模型,大大简化架构并加快训练速度。
PDF
2 years ago
CVPR
多模态动作识别中可学习的无关模态丢弃技术 —— 以特定模态注释视频为例
通过使用语言模型构建语义音视频标签字典,本文提出了一种新的音视频框架来有效利用任何仅具有视觉注释的数据集中的音频模态,在训练阶段使用 SAVLD 以及预训练的多标签模型来估计音视频模态相关性,并提出了一种可学习的无关模态 dropout 方
→
PDF
2 years ago
Prev
Next