visual grounding | BriefGPT

关键词visual grounding

搜索结果 - 113

从生成式视觉和语言模型中学习视觉定位
这项研究探索了利用图像和文本数据进行训练的生成式可变长模型（generative VLMs）扩展文本对视觉定位数据的标注，并通过适当的提示从生成式 VLM 中提取地位知识。研究构建了一个庞大的视觉定位数据集，其中包含 500,000 张图像
PDF9 days ago
ECCV基于文本到图像扩散模型的开放词汇 3D 语义分割
本文提出了一种名为 Diff2Scene 的新颖方法，利用大规模图像 - 文字对预训练的扩散模型以及敏感感知和几何感知的掩模，实现了开放词汇的 3D 语义分割和视觉定位任务，从而有效消除了任何标记的 3D 数据并能够准确地识别出 3D 场景
PDF9 days ago
评估视觉叙事需要更多的评测指标
通过引入一种新的方法来衡量以人类相似性为基础的三个关键方面（视觉联系、连贯性和重复性），从而提高故事质量。此方法用于评估由多个模型生成的故事，结果表明，基础模型 LLaVA 获得最佳结果，但与 TAPM 相比，后者是一个参数更少的视觉叙事模
PDF22 days ago
ECCVSegVG：将物体边界框转化为分割图像以进行视觉对齐
SegVG 是一种新颖的方法，通过将边界框级别的注释转化为分割信号，为视觉定位任务提供了像素级别的监督。通过多层多任务编码器 - 解码器，我们学习了回归查询和多个分割查询，以在每个解码层中通过回归和分割来定位目标。通过三重对齐模块来减少域间
PDF24 days ago
基于注意力驱动的约束平衡的视觉定位
本文介绍了一种名为 AttBalance 的新框架，通过优化语言相关区域内的视觉特征行为，以提高视觉定位任务的性能，并在四个不同基准测试上对五种不同模型进行了评估和持续改进，进而在 QRNet 上实现了最新的表现水平。
PDF24 days ago
ICCV 2023 感知测试挑战的解决方案 -- 任务 6-- 基于视频的问题回答
本研究介绍了一种基于视频的问答解决方案，通过将视觉定位和物体跟踪结合，提出了一个两阶段的替代方法，并利用 VALOR 模型回答问题并生成边界框。
PDF25 days ago
CVLUE：一个新的面向中文视觉语言理解评估的基准数据集
通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集，揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距，并发现在中国文化方面缺乏知识。此外，通过在中
PDFa month ago
关于视觉定位在 VQA 中的作用
通过形式化的理论框架 “Visually Grounded Reasoning”，本研究揭示了在 VQA 中视觉定位的重要性，指出基于深度神经网络的 VQA 模型通过捷径学习（shortcut learning）绕过视觉定位的情况，并提出了
PDFa month ago
ACL基于 LLM 的改进和基于框的分割的地面多模态命名实体识别的推进
提出了 RiVEG，这是一个统一的框架，将 GMNER 转化为联合的 MNER-VE-VG 任务，通过利用大型语言模型作为连接桥梁，解决了 GMNER 任务中存在的挑战，并通过构建新的 SMNER 任务和 Twitter-SMNER 数据集
PDF2 months ago
F-LMM: 冻结大规模多模态模型的基础
通过冻结已训练好的 Large Multimodal Models（LMMs）并结合人机对话，我们提出了一种简单且有效的设计 F-LMM，可以在完全保留 LMMs 的通话能力的同时，在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。
PDF2 months ago
HPE-CogVLM：基于视觉语言模型的新头部姿势定位任务探索
本研究使用 CogVLM 的视觉定位能力，提出了一种新的框架来增强头部姿态估计任务，通过改进大语言模型中的灾难遗忘问题和引入 LoRA 层模型合并方法，有效提高头部姿态估计性能，并且在多个指标上优于现有方法。
PDF2 months ago
LLM-Optic：揭示大型语言模型在通用视觉锚定中的能力
通过使用大型语言模型作为视觉定位模型的辅助工具，LLM-Optic 方法克服了复杂文本查询的限制，实现了可以通过任意语言输入来检测任意对象的视觉定位能力，无需额外训练或微调。
PDF2 months ago
ICLR多模态大型语言模型的视觉定位对抗鲁棒性
使用多模态大型语言模型（MLLMs）对视觉定位进行饱受关注的对抗性攻击研究，通过提出三种对抗攻击范式来攻击 MLLMs 的视觉定位性能，进而为提高 MLLMs 的视觉定位的对抗鲁棒性提供了新的视角和强大的基线。
PDF2 months ago
DARA: 域和关系感知适配器实现对视觉定位的参数高效调整
基于文本描述对图像中的物体进行定位的视觉 grounding 是一项具有挑战性的任务。本文通过提出一种名为 DARA 的新的参数高效迁移学习方法，利用域感知适配器 (DA Adapters) 和关系感知适配器 (RA Adapters) 来
PDF3 months ago
HiVG: 视觉引导的分层多模态细粒度调控
通过多模态预训练的方法，我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG，用于解决通过自然语言对视觉区域进行视觉定位的任务，并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。
PDF3 months ago
AgentStudio: 一个用于构建通用虚拟代理的工具包
创建具备适应任意软件在任何数字设备上运行的自主虚拟代理人仍然是人工智能的一个重大挑战。为了解决这个问题，我们介绍了 AgentStudio，这是一个在线、逼真且多模态的工具包，涵盖了代理人开发的整个生命周期，包括环境设置、数据收集、代理人评
PDF4 months ago
MedPromptX: 融入视听提示的胸部 X 射线诊断
利用多模态大型语言模型、少样本训练提示、视觉定位将影像与电子病历数据结合，该研究提出了 MedPromptX 模型，用于胸部 X 射线诊断，有效提高了异常的识别能力。
PDF4 months ago
基于模型和数据的视觉定位学习
SynGround 是一个结合数据驱动学习和知识传递的新框架，通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力，并通过合成图像和文本来提高模型性能，最终在多个数据集上展示出提升。
PDF4 months ago
WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位
基于人类意图的水域感知对于水面无人船的自主导航和操作具有重要意义。本文提出了第一个基于人类意图的水域感知的视觉 grounding 数据集 WaterVG，并引入了一种新颖的多模态视觉 grounding 模型 Potamoi，通过融合不同
PDF4 months ago
恰当的地方，合适的时间！面向非静态目标的导航
我们提出了一种新颖的方法来解决室内环境中移动且可能被遮挡的目标的 ObjectNav 任务。我们称此任务为 Portable ObjectNav（或 P-ObjectNav），并在这项工作中，提出了它的形式，可行性，并使用一种新颖的基于增强
PDF4 months ago