- ECCVSegVG:将物体边界框转化为分割图像以进行视觉对齐
SegVG 是一种新颖的方法,通过将边界框级别的注释转化为分割信号,为视觉定位任务提供了像素级别的监督。通过多层多任务编码器 - 解码器,我们学习了回归查询和多个分割查询,以在每个解码层中通过回归和分割来定位目标。通过三重对齐模块来减少域间 - 基于注意力驱动的约束平衡的视觉定位
本文介绍了一种名为 AttBalance 的新框架,通过优化语言相关区域内的视觉特征行为,以提高视觉定位任务的性能,并在四个不同基准测试上对五种不同模型进行了评估和持续改进,进而在 QRNet 上实现了最新的表现水平。
- ICCV 2023 感知测试挑战的解决方案 -- 任务 6-- 基于视频的问题回答
本研究介绍了一种基于视频的问答解决方案,通过将视觉定位和物体跟踪结合,提出了一个两阶段的替代方法,并利用 VALOR 模型回答问题并生成边界框。
- CVLUE:一个新的面向中文视觉语言理解评估的基准数据集
通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集,揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距,并发现在中国文化方面缺乏知识。此外,通过在中 - 关于视觉定位在 VQA 中的作用
通过形式化的理论框架 “Visually Grounded Reasoning”,本研究揭示了在 VQA 中视觉定位的重要性,指出基于深度神经网络的 VQA 模型通过捷径学习(shortcut learning)绕过视觉定位的情况,并提出了 - ACL基于 LLM 的改进和基于框的分割的地面多模态命名实体识别的推进
提出了 RiVEG,这是一个统一的框架,将 GMNER 转化为联合的 MNER-VE-VG 任务,通过利用大型语言模型作为连接桥梁,解决了 GMNER 任务中存在的挑战,并通过构建新的 SMNER 任务和 Twitter-SMNER 数据集 - F-LMM: 冻结大规模多模态模型的基础
通过冻结已训练好的 Large Multimodal Models(LMMs)并结合人机对话,我们提出了一种简单且有效的设计 F-LMM,可以在完全保留 LMMs 的通话能力的同时,在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。
- HPE-CogVLM:基于视觉语言模型的新头部姿势定位任务探索
本研究使用 CogVLM 的视觉定位能力,提出了一种新的框架来增强头部姿态估计任务,通过改进大语言模型中的灾难遗忘问题和引入 LoRA 层模型合并方法,有效提高头部姿态估计性能,并且在多个指标上优于现有方法。
- LLM-Optic:揭示大型语言模型在通用视觉锚定中的能力
通过使用大型语言模型作为视觉定位模型的辅助工具,LLM-Optic 方法克服了复杂文本查询的限制,实现了可以通过任意语言输入来检测任意对象的视觉定位能力,无需额外训练或微调。
- ICLR多模态大型语言模型的视觉定位对抗鲁棒性
使用多模态大型语言模型(MLLMs)对视觉定位进行饱受关注的对抗性攻击研究,通过提出三种对抗攻击范式来攻击 MLLMs 的视觉定位性能,进而为提高 MLLMs 的视觉定位的对抗鲁棒性提供了新的视角和强大的基线。
- DARA: 域和关系感知适配器 实现对视觉定位的参数高效调整
基于文本描述对图像中的物体进行定位的视觉 grounding 是一项具有挑战性的任务。本文通过提出一种名为 DARA 的新的参数高效迁移学习方法,利用域感知适配器 (DA Adapters) 和关系感知适配器 (RA Adapters) 来 - HiVG: 视觉引导的分层多模态细粒度调控
通过多模态预训练的方法,我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG,用于解决通过自然语言对视觉区域进行视觉定位的任务,并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。
- AgentStudio: 一个用于构建通用虚拟代理的工具包
创建具备适应任意软件在任何数字设备上运行的自主虚拟代理人仍然是人工智能的一个重大挑战。为了解决这个问题,我们介绍了 AgentStudio,这是一个在线、逼真且多模态的工具包,涵盖了代理人开发的整个生命周期,包括环境设置、数据收集、代理人评 - MedPromptX: 融入视听提示的胸部 X 射线诊断
利用多模态大型语言模型、少样本训练提示、视觉定位将影像与电子病历数据结合,该研究提出了 MedPromptX 模型,用于胸部 X 射线诊断,有效提高了异常的识别能力。
- 基于模型和数据的视觉定位学习
SynGround 是一个结合数据驱动学习和知识传递的新框架,通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力,并通过合成图像和文本来提高模型性能,最终在多个数据集上展示出提升。
- WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位
基于人类意图的水域感知对于水面无人船的自主导航和操作具有重要意义。本文提出了第一个基于人类意图的水域感知的视觉 grounding 数据集 WaterVG,并引入了一种新颖的多模态视觉 grounding 模型 Potamoi,通过融合不同 - 恰当的地方,合适的时间!面向非静态目标的导航
我们提出了一种新颖的方法来解决室内环境中移动且可能被遮挡的目标的 ObjectNav 任务。我们称此任务为 Portable ObjectNav(或 P-ObjectNav),并在这项工作中,提出了它的形式,可行性,并使用一种新颖的基于增强 - 检测多模式机器翻译的具体视觉符号
通过多模式机器翻译 (MMT) 系统中的视觉定位和屏蔽的挑战,我们提出了用于检测和选择与视觉有关的文本令牌进行屏蔽的新方法,包括自然语言处理 (NLP) 检测、目标检测检测和联合检测 - 验证技术。我们还引入了选择已检测到的令牌的新方法,包 - 通过图像感知的属性缩减进行视觉对位的对抗性测试
通过减少与图像不相关的信息,保留原始表达的关键信息,并确保减少的表达仍然能够唯一描述图像中的原始对象,我们提出了一种名为 PEELING 的文本扰动方法,用于对 VG 模型进行敌对测试。
- 见之于眼:通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉
大规模视觉语言模型容易出现对象幻觉问题,本文提出了使用 CLIP 引导解码的方法来减少对象幻觉,通过增强生成文本与图像之间的视觉联系,有效缓解了多个视觉语言模型家族中的对象幻觉问题,并且保持了文本生成的实用性。