关键词visual grounding
搜索结果 - 106
  • 关于视觉定位在 VQA 中的作用
    PDF6 days ago
  • ACL基于 LLM 的改进和基于框的分割的地面多模态命名实体识别的推进
    PDF21 days ago
  • F-LMM: 冻结大规模多模态模型的基础
    PDF23 days ago
  • HPE-CogVLM:基于视觉语言模型的新头部姿势定位任务探索
    PDFa month ago
  • LLM-Optic:揭示大型语言模型在通用视觉锚定中的能力
    PDFa month ago
  • ICLR多模态大型语言模型的视觉定位对抗鲁棒性
    PDF2 months ago
  • DARA: 域和关系感知适配器 实现对视觉定位的参数高效调整
    PDF2 months ago
  • HiVG: 视觉引导的分层多模态细粒度调控
    PDF2 months ago
  • AgentStudio: 一个用于构建通用虚拟代理的工具包
    PDF3 months ago
  • MedPromptX: 融入视听提示的胸部 X 射线诊断
    PDF3 months ago
  • 基于模型和数据的视觉定位学习
    PDF3 months ago
  • WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位
    PDF3 months ago
  • 恰当的地方,合适的时间!面向非静态目标的导航
    PDF4 months ago
  • 检测多模式机器翻译的具体视觉符号
    PDF4 months ago
  • 通过图像感知的属性缩减进行视觉对位的对抗性测试
    PDF4 months ago
  • 见之于眼:通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉
    PDF4 months ago
  • 超越字面描述:理解与定位与人类意图相一致的开放世界对象
    PDF4 months ago
  • ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力
    PDF5 months ago
  • 揭示 VQA 中视觉定位方法的全部潜力
    PDF6 months ago
  • 多模态 LLM 的视觉缺陷探究
    PDF6 months ago
Prev