BriefGPT.xyz
Ask
alpha
关键词
object referring
搜索结果 - 3
Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知
Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models t
→
PDF
4 months ago
CVPR
视频中的对象指称:基于语言和人类凝视
本研究提出了一种利用视频中物体的运动特征、人眼注视和时空语境等信息进行对象指称的新型神经网络模型,并使用一个包含 30,000 个对象的测试数据集验证了该模型的有效性。
PDF
7 years ago
口语中的视觉场景物体指称
本文探讨了用口语作为输入的物体指称(ORSpoken),通过介绍两个数据集和一种新的方法来为多模式学习提供了理想的数据集,并在相应的层次引入任务特定的视觉语言交互,实验表明我们的方法在减轻背景噪声方面具有很好的效果。
PDF
7 years ago
Prev
Next