BriefGPT.xyz
Ask
alpha
关键词
text query
搜索结果 - 2
ICCV
破碎和聚集:利用文本监督学习参考图像分割
在此研究中,我们使用弱监督学习方法,利用训练图像的文本描述作为唯一的监督来源,解决了训练数据标记成本高昂的问题,并提出了一种新模型来发现输入图像中的语义实体,并组合与文本查询相关的实体来预测指代物的掩码。我们还提出了一种新的损失函数,使得模
→
PDF
10 months ago
CVPR
TubeDETR: 基于 Transformer 的时空视频锚定
提出了基于 Transformer 的 TubeDETR 模型,该模型能够高效地建模时空和多模态交互,用于解决视频中给定文本查询的时空定位问题,并且在视频定位任务上表现出色。
PDF
2 years ago
Prev
Next