BriefGPT.xyz
Ask
alpha
关键词
cross-modal feature interaction
搜索结果 - 3
CVPR 2024 PVUW 工作坊 MeViS 赛道冠军解决方案:运动表情引导的视频分割
提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法,着重于增强跨模态特征交互,在视频目标分割中取得了显著的改进效果。
PDF
a month ago
CVPR
Cap4Video: 文本 - 视频检索中辅助字幕的作用
本文提出了一种基于 zero-shot video captioning 和 cross-modal feature interaction 的 text-video retrieval 方法,即 Cap4Video,该方法通过增强视频表示
→
PDF
2 years ago
IJCAI
AutoAlign:用于多模态 3D 物体检测的像素 - 实例特征聚合
本研究提出了一种自动特征融合策略 AutoAlign,通过可学习的对齐映射以及交叉注意力特征对齐模块和自监督跨模态特征交互模块实现图像和点云数据源的同步处理,实验结果表明该方法在 KITTI 和 nuScenes 数据集上都有较好的表现。
PDF
2 years ago
Prev
Next