- 关于视觉定位在 VQA 中的作用
通过形式化的理论框架 “Visually Grounded Reasoning”,本研究揭示了在 VQA 中视觉定位的重要性,指出基于深度神经网络的 VQA 模型通过捷径学习(shortcut learning)绕过视觉定位的情况,并提出了 - ACL基于 LLM 的改进和基于框的分割的地面多模态命名实体识别的推进
提出了 RiVEG,这是一个统一的框架,将 GMNER 转化为联合的 MNER-VE-VG 任务,通过利用大型语言模型作为连接桥梁,解决了 GMNER 任务中存在的挑战,并通过构建新的 SMNER 任务和 Twitter-SMNER 数据集 - F-LMM: 冻结大规模多模态模型的基础
通过冻结已训练好的 Large Multimodal Models(LMMs)并结合人机对话,我们提出了一种简单且有效的设计 F-LMM,可以在完全保留 LMMs 的通话能力的同时,在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。
- HPE-CogVLM:基于视觉语言模型的新头部姿势定位任务探索
本研究使用 CogVLM 的视觉定位能力,提出了一种新的框架来增强头部姿态估计任务,通过改进大语言模型中的灾难遗忘问题和引入 LoRA 层模型合并方法,有效提高头部姿态估计性能,并且在多个指标上优于现有方法。
- LLM-Optic:揭示大型语言模型在通用视觉锚定中的能力
通过使用大型语言模型作为视觉定位模型的辅助工具,LLM-Optic 方法克服了复杂文本查询的限制,实现了可以通过任意语言输入来检测任意对象的视觉定位能力,无需额外训练或微调。
- ICLR多模态大型语言模型的视觉定位对抗鲁棒性
使用多模态大型语言模型(MLLMs)对视觉定位进行饱受关注的对抗性攻击研究,通过提出三种对抗攻击范式来攻击 MLLMs 的视觉定位性能,进而为提高 MLLMs 的视觉定位的对抗鲁棒性提供了新的视角和强大的基线。
- DARA: 域和关系感知适配器 实现对视觉定位的参数高效调整
基于文本描述对图像中的物体进行定位的视觉 grounding 是一项具有挑战性的任务。本文通过提出一种名为 DARA 的新的参数高效迁移学习方法,利用域感知适配器 (DA Adapters) 和关系感知适配器 (RA Adapters) 来 - HiVG: 视觉引导的分层多模态细粒度调控
通过多模态预训练的方法,我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG,用于解决通过自然语言对视觉区域进行视觉定位的任务,并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。
- AgentStudio: 一个用于构建通用虚拟代理的工具包
创建具备适应任意软件在任何数字设备上运行的自主虚拟代理人仍然是人工智能的一个重大挑战。为了解决这个问题,我们介绍了 AgentStudio,这是一个在线、逼真且多模态的工具包,涵盖了代理人开发的整个生命周期,包括环境设置、数据收集、代理人评 - MedPromptX: 融入视听提示的胸部 X 射线诊断
利用多模态大型语言模型、少样本训练提示、视觉定位将影像与电子病历数据结合,该研究提出了 MedPromptX 模型,用于胸部 X 射线诊断,有效提高了异常的识别能力。
- 基于模型和数据的视觉定位学习
SynGround 是一个结合数据驱动学习和知识传递的新框架,通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力,并通过合成图像和文本来提高模型性能,最终在多个数据集上展示出提升。
- WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位
基于人类意图的水域感知对于水面无人船的自主导航和操作具有重要意义。本文提出了第一个基于人类意图的水域感知的视觉 grounding 数据集 WaterVG,并引入了一种新颖的多模态视觉 grounding 模型 Potamoi,通过融合不同 - 恰当的地方,合适的时间!面向非静态目标的导航
我们提出了一种新颖的方法来解决室内环境中移动且可能被遮挡的目标的 ObjectNav 任务。我们称此任务为 Portable ObjectNav(或 P-ObjectNav),并在这项工作中,提出了它的形式,可行性,并使用一种新颖的基于增强 - 检测多模式机器翻译的具体视觉符号
通过多模式机器翻译 (MMT) 系统中的视觉定位和屏蔽的挑战,我们提出了用于检测和选择与视觉有关的文本令牌进行屏蔽的新方法,包括自然语言处理 (NLP) 检测、目标检测检测和联合检测 - 验证技术。我们还引入了选择已检测到的令牌的新方法,包 - 通过图像感知的属性缩减进行视觉对位的对抗性测试
通过减少与图像不相关的信息,保留原始表达的关键信息,并确保减少的表达仍然能够唯一描述图像中的原始对象,我们提出了一种名为 PEELING 的文本扰动方法,用于对 VG 模型进行敌对测试。
- 见之于眼:通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉
大规模视觉语言模型容易出现对象幻觉问题,本文提出了使用 CLIP 引导解码的方法来减少对象幻觉,通过增强生成文本与图像之间的视觉联系,有效缓解了多个视觉语言模型家族中的对象幻觉问题,并且保持了文本生成的实用性。
- 超越字面描述:理解与定位与人类意图相一致的开放世界对象
我们提出了一项新的面向人类意图解释的视觉引导任务(IVG),并构建了一个最大规模的自由形式意图表达的 IVG 数据集 IntentionVG,通过大量实验验证了我们方法在视觉语言领域的必要性和实用性。
- ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力
通过细粒度的奖励建模,ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果,该方法使用较便宜的人工评估和自动化方法,有效地减少了视觉输入的不准确性问题,并构建了一个用于验证视觉 grounding 能力的全面且具有 - 揭示 VQA 中视觉定位方法的全部潜力
视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而,在处理大规模视觉问题回答中常见的不完美图像表示时,这种对应视觉信息的假设是存在缺陷的,其与预期的真实内容之间的偏差导致了这些方法的潜在优势 - 多模态 LLM 的视觉缺陷探究
通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究,我们发现最新的多模态大型语言模型(MLLMs)在视觉能力方面仍然存在系统性缺陷。为了解决这些问题,我们提出了一种特征混合(MoF)方法,通过将视觉自监督学习特征与 MLLMs