DynRefer: 通过动态分辨率探索区域级多模态任务
本论文提出一种基于逐步学习区分性多模态特征的方法,通过不断更新查询作为目标对象的表示,强化与之相关的多模态特征,逐渐从定位中心转为分割中心,实现逐步修复缺失对象部分和 / 或去除多余部分,并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。
Mar, 2023
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的 3D 视觉定位任务的方法,并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征,匹配语言中的语义特征。我们提出了两个新的数据集,STRefer 和 LifeRefer,这些数据集对于野外 3D 视觉定位的研究具有重要意义,并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明,我们的方法在两个提出的数据集上实现了最先进的性能。
Apr, 2023
该论文探讨在多模态对话中,为了创建新的可视化效果,如何通过引用解析来实现用户对大屏幕可视化的引用。它描述了实体引用注释和引用解析管道,并研究了传统 CRF 和深度学习 / 转换器模型(BiLSTM-CRF 和 BERT-CRF)。结果表明,深度学习方法的转移学习显著提高了性能,虽然 CRF 仍然优于它们,但表明传统方法在低资源数据方面可能具有更好的泛化能力。
Sep, 2022
本文提出了一种双重多模态交互网络 (DMMI),用于解决自然语言表达中引用图像分割的问题,并设计了一个新的挑战性但真实的数据集 Ref-ZOM,通过大量实验证明该方法在不同数据集上取得了最先进的性能,并且 Ref-ZOM 训练的模型能够良好地处理各种类型的文本输入。
Aug, 2023
如果机器人要与人类有效地共同工作,它们必须能够解释其 3D 环境中的物体的自然语言指示。Transcrib3D 是一种结合了 3D 检测方法和大型语言模型(LLMs)新兴推理能力的方法,通过使用文本作为统一介质,绕过了学习连接多模态输入的共享表示所需的大量注释 3D 数据的需求。通过在 3D 参考解析基准上取得最先进的结果,Transcrib3D 的有效性得到了证明,其性能远远超过了以前的多模态基准水平。为了改进零 - shot 性能并在边缘计算机和机器人上便于本地部署,我们提出了自我校正方法进行微调,训练更小的模型,结果使得性能接近于大模型的性能。我们展示了我们的方法使得真实的机器人能够在包含具有挑战性的指代表达的查询下进行拾取和放置任务。项目网站在此 https URL。
Apr, 2024
Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models to achieve nuanced visual and language referring, and outperforms expert models in object detection and counting.
Mar, 2024
通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型(VLMs)的话语处理能力,并使用预训练的 VLMs 在零样本情况下识别参照物,从而提高了参照的准确性和效果。
Sep, 2023
本文旨在解决 参考图像分割 (RIS) 中当图像中被参考的物体视觉线索不足时,学习匹配行为变得更困难的问题,提出了一种两阶段视觉提示增强网络 (TV-Net),可以有效增强参考物体的视觉信息,尤其是在视觉线索不足的情况下。并且通过在四个基准数据集上的实验,验证了所提出的 TV-Net 方法有效性并超越了现有技术的水平。
Oct, 2021
本研究探讨了自然语言描述下图像分割的问题,提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法,并在基准数据集上展示出了其比基准模型更好的性能。
Mar, 2017
本文提出了一种新的基于关联关注记忆的注意力机制,用于解决视觉对话场景下的模糊引用问题,通过在一个新的合成数据集上的实验验证,表明该模型在解决视觉引用问题的重要场景下,比现有技术水平显著提高了 16%;此外,该模型在视觉对话数据集上的表现也优于原有基线模型,而且参数数量明显更少。
Sep, 2017