关键词visual grounding
搜索结果 - 98
  • AgentStudio: 一个用于构建通用虚拟代理的工具包
    PDFa month ago
  • MedPromptX: 融入视听提示的胸部 X 射线诊断
    PDFa month ago
  • 基于模型和数据的视觉定位学习
    PDFa month ago
  • WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位
    PDFa month ago
  • 恰当的地方,合适的时间!面向非静态目标的导航
    PDFa month ago
  • 检测多模式机器翻译的具体视觉符号
    PDF2 months ago
  • 通过图像感知的属性缩减进行视觉对位的对抗性测试
    PDF2 months ago
  • 见之于眼:通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉
    PDF2 months ago
  • 超越字面描述:理解与定位与人类意图相一致的开放世界对象
    PDF2 months ago
  • ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力
    PDF2 months ago
  • 揭示 VQA 中视觉定位方法的全部潜力
    PDF3 months ago
  • 多模态 LLM 的视觉缺陷探究
    PDF3 months ago
  • 通过有效的跨模态蒸馏弥合视觉定位的模态差距
    PDF4 months ago
  • AAAI循环一致性学习用于字幕生成和定位
    PDF4 months ago
  • GroundVLP:从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位
    PDF4 months ago
  • 上下文解缠和原型继承的鲁棒视觉定位
    PDF4 months ago
  • GPT-4 增强型自动驾驶多模态基础:借助大型语言模型的跨模态注意力
    PDF5 months ago
  • 通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展
    PDF5 months ago
  • 基于图像和描述之间的结构相似性的零样本指称表达理解
    PDF5 months ago
  • 基于深度学习的视觉 - 语言任务统一框架
    PDF5 months ago
Prev