关键词vision-language interaction
搜索结果 - 2
- ECCV通过对比和聚类视觉语言嵌入进行开放世界语义分割
本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg,通过无需密集标注的方式,利用网络上自然存在的图像和文本数据,学习到能够直接分割任意开放世界类别对象的能力,实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。
- 口语中的视觉场景物体指称
本文探讨了用口语作为输入的物体指称(ORSpoken),通过介绍两个数据集和一种新的方法来为多模式学习提供了理想的数据集,并在相应的层次引入任务特定的视觉语言交互,实验表明我们的方法在减轻背景噪声方面具有很好的效果。