BriefGPT.xyz
Ask
alpha
关键词
language queries
搜索结果 - 4
CVPR
Pseudo-Q:生成视觉定位的伪语言查询
本文提出一种名为 Pseudo-Q 的新颖方法来自动生成替代人工标注的伪语言查询,以此实现视觉定位目标的目的,通过任务相关的查询提示模块和跨模态多级注意力机制发展视觉语言模型。实验结果表明,该方法可大幅降低人力成本,同时表现出优异的弱监督式
→
PDF
2 years ago
CVPR
使用语言查询进行视频对象分割
该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer,用于视频对象分割的跨模态任务。该方法将语言视为查询,直接关注视频帧中与查询最相关的区域,并将所有查询都强制找到所需对象,最终将它们转换为捕获关键的对象级信
→
PDF
3 years ago
穿越时间:视频活动的有效定位
本文介绍了一种基于强化学习的视频定位技术,使用文本和视频的精细特征表示来准确定位语言查询中的片段,并仅浏览整个视频的 32-41% 以节约处理时间。
PDF
5 years ago
基于语言的时间定位中的活动概念挖掘
该研究提出了一种用于在未剪辑的视频中进行基于语言的时间定位的新方法,该方法利用了语言查询和视觉模型之间的语义概念,以及利用活动分类器预测得分编码视觉概念,并且可以对滑动窗口进行回归定位。实验表明,该方法在 Charades-STA 和 TA
→
PDF
6 years ago
Prev
Next