关键词visual grounding
搜索结果 - 107
  • 多模态 LLM 的视觉缺陷探究
    PDF6 months ago
  • 通过有效的跨模态蒸馏弥合视觉定位的模态差距
    PDF6 months ago
  • AAAI循环一致性学习用于字幕生成和定位
    PDF6 months ago
  • GroundVLP:从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位
    PDF6 months ago
  • 上下文解缠和原型继承的鲁棒视觉定位
    PDF6 months ago
  • GPT-4 增强型自动驾驶多模态基础:借助大型语言模型的跨模态注意力
    PDF7 months ago
  • 通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展
    PDF7 months ago
  • 基于图像和描述之间的结构相似性的零样本指称表达理解
    PDF7 months ago
  • 基于深度学习的视觉 - 语言任务统一框架
    PDF8 months ago
  • 基于 CLIP 的语言引导机器人抓取:在杂乱环境中的参考抓取合成
    PDF8 months ago
  • GPT-4V 在医学影像中的多模态能力综合研究
    PDF8 months ago
  • CityRefer:城市尺度点云数据的地理感知 3D 视觉引导数据集
    PDF8 months ago
  • 上下文有重要性:具有可变形注意力的端到端全景叙述关联匹配网络
    PDF8 months ago
  • OV-VG:开放词汇视觉定位基准
    PDF8 months ago
  • EMNLP阅读书籍很好,但驾车时不适合!关于非抗辩常识规范的视觉确定性推理
    PDF9 months ago
  • VGDiffZero: 文本到图像扩散模型可以进行零射击视觉定位
    PDF10 months ago
  • HuBo-VLM:为人机交互任务设计的统一视觉语言模型
    PDF10 months ago
  • 语言引导扩散模型用于视觉定位
    PDFa year ago
  • 基于中心点监督的迭代稳健视觉定位
    PDFa year ago
  • CVPR运用场景知识推进视觉连接:基准与方法
    PDFa year ago