BriefGPT.xyz
Ask
alpha
关键词
vision-language task
搜索结果 - 4
M$^2$IST: 多模式交互侧调节用于记忆效率的指称表达理解
Referring expression comprehension is improved through M$^2$IST, a parameter- and memory-efficient transfer learning met
→
PDF
5 days ago
视觉字幕恢复
我们介绍了一种名为 Visual Caption Restoration(VCR)的新颖视觉 - 语言任务,该任务要求模型使用图像中的像素级提示准确恢复部分被遮挡的文本。我们开发了一个流程来生成用于 VCR 任务的合成图像,并构建了一个名为
→
PDF
a month ago
无实例文本到点云定位与相对位置感知
提出了一种新的模型来解决现有方法的两个主要限制:依赖于地面实例作为输入以及忽视可能实例之间的相对位置,通过文本到点云的跨模态本地化任务,能够在一个城市规模的点云场景中根据少量自然语言指令来定位一个位置。实验结果表明,该模型在 KITTI36
→
PDF
2 months ago
CVPR
递归视觉注意力在视觉对话中的应用
本文提出了一种名为 Recursive Visual Attention (RvA) 的新型注意力机制,用于解决视觉对话中的视觉协同参考问题,并在大规模的 VisDial v0.9 和 v1.0 数据集上进行了实验,结果表明 RvA 不仅超
→
PDF
6 years ago
Prev
Next