OMG:基于自然语言的车辆检索中观察多个粒度
通过结合多模态的语言驱动特征和视觉特征,在多目标跟踪中提出了一种新的 LG-MOT 框架,它在不同层次上(场景和实例级)明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的 MOT 数据集中注释场景和实例级的语言描述,将语言信息编码到高维度嵌入中,并在训练过程中用于引导视觉特征。在三个基准测试集 MOT17、DanceTrack 和 SportsMOT 上进行了广泛实验,结果显示提出的方法在性能上达到了最先进水平,并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益 2.2%。此外,所提出的 LG-MOT 表现出良好的跨领域泛化能力。
Jun, 2024
本研究使用基于语言描述的车辆搜索来探索其在实际场景中的潜力,结合最先进的视觉模型和基于 Transformer 的语言模型,重新审视了网络结构设计、训练策略和优化目标,实验结果显示出了优越的性能,并希望为未来车辆检索系统的研究铺平道路。
May, 2021
该论文提出了一种新的多粒度感知网络 (MGPN),旨在改善视频中的时刻检索,将时刻检索建模为一种多选阅读理解任务,结合人类阅读策略,并通过优化算法提高了检索精度。
May, 2022
采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA,在感知任务中提供了出色的表现,并且超越了相似参数规模的现有模型,具备出色的目标识别能力。
Jun, 2024
提出了一种新颖的 OMG-LLaVA 框架,将强大的像素级视觉理解与推理能力相结合,接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令,并基于视觉信息提供文本响应和像素级分割结果。OMG-LLaVA 在一个模型中实现了图像级、对象级和像素级的推理和理解,达到了或超过了多个基准测试的专门方法的性能。
Jun, 2024
本文介绍了一个模块化解决方案 All You Can Embed (AYCE),旨在将单车跟踪序列与自然语言相关联以解决智慧城市应用中结合视觉与文本信息的问题,其核心为使用 BERT 提供文本描述的嵌入和卷积背骨和 Transformer 模型嵌入视觉信息。
Jun, 2021
本文提出了一种基于 SCRC 模型来实现自然语言对象检索的方法,利用空间配置和全局场景级上下文信息对网络进行评分,通过循环网络处理查询文本、本地图像描述符、空间配置以及全局上下文特征来输出概率,实现了从图像标题到任务的视觉语言知识的转移,实验结果表明我们的模型有效地利用了局部和全局信息,在不同数据集和场景中显著优于先前的基准方法,并可以利用大规模的视觉和语言数据集进行知识转移。
Nov, 2015
通过在上下文中引入视觉对象向量,我们提出了一种新的方法来引导大型语言模型,从而实现可控的对象级推理,消除了融合冗长图像区块特征的必要性,显著加速了训练。此外,我们还提出了使用对象表示进行区域级检索的方法,便于快速适应新对象而无需额外训练。我们的实验证明,我们的方法在参考对象分类和字幕生成性能上达到了竞争力,并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。
Jun, 2024
通过引入自然语言表示来提高多目标跟踪模型的域泛化能力,本文提出了两个模块(视觉上下文提示和视觉 - 语言混合),用于生成本征于不同跟踪场景的实例级伪文字描述,并通过在 MOT17 上训练和在 MOT20 上验证,观察到该方法显著提高了基于查询的跟踪器的泛化性能。
Dec, 2022
本研究提出了一种简单而有效的方法来实现以对象为中心的开放词汇图像检索,通过从 CLIP 中提取出的密集嵌入将大规模图像检索管道的可扩展性与密集检测方法的对象识别能力相结合,从而实现了极大的提升。
Sep, 2023