DTLLM-VLT: 基于 LLM 的视觉语言跟踪多样化文本生成

CVPRMay, 2024

DTLLM-VLT: 基于 LLM 的视觉语言跟踪多样化文本生成

DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

Xuchen Li, Xiaokun Feng, Shiyu Hu, Meiqi Wu, Dailing Zhang...

TL;DRVisual Language Tracking (VLT) leverages multi-granularity text descriptions to enhance single object tracking (SOT) by providing fine-grained evaluation of multi-modal trackers.

Abstract

visual language tracking (VLT) enhances single object tracking (SOT) by integrating natural language descriptions from a video, for the precise tracking of a specified object. By leveraging high-level semantic in

visual language tracking single object tracking vlt benchmarks dtllm-vlt multi-granularity text

发现论文，激发创造

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

迈向视觉语言跟踪的统一标记学习

该研究提出了一种简单、灵活且有效的视觉 - 语言（VL）跟踪管道，称为 MMTrack，它将 VL 跟踪视为一个标记生成任务，并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数，该设计范式极大地降低了 VL 跟踪建模的复杂性，并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明，与其他最先进的方法相比，我们的方法取得了令人满意的结果。

Aug, 2023

多粒度语言指导的多目标追踪

通过结合多模态的语言驱动特征和视觉特征，在多目标跟踪中提出了一种新的 LG-MOT 框架，它在不同层次上（场景和实例级）明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的 MOT 数据集中注释场景和实例级的语言描述，将语言信息编码到高维度嵌入中，并在训练过程中用于引导视觉特征。在三个基准测试集 MOT17、DanceTrack 和 SportsMOT 上进行了广泛实验，结果显示提出的方法在性能上达到了最先进水平，并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益 2.2％。此外，所提出的 LG-MOT 表现出良好的跨领域泛化能力。

Jun, 2024

VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

本文提出了一种新的视觉 - 语言特征模型 (VL feature)，通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义，同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配，实验证明该方法优于现有的最优方法。

Nov, 2022

大型视觉语言模型生成的描述的独特性和准确性探究

该研究使用大规模视觉语言模型 (LVLMs) 来评估它们在识别相似对象和准确描述视觉特征方面的独特性和忠实度，并提出了文本检索增强分类 (TRAC) 框架以深入分析细粒度的视觉描述生成。研究结果表明，在生成细粒度描述方面，MiniGPT-4 比其他两个模型表现更好。

Apr, 2024

超越视觉线索：同步探索面向目标的语义用于视觉 - 语言追踪

这篇研究论文介绍了一种新颖的追踪器，通过逐步探索目标中心语义来进行视觉 - 语言追踪，其中包括两个关键模块：目标增强模块（TEM）和语义感知模块（SAM），并采用密集匹配损失以增强多模态表示学习。实验证明了该方法的优越性和有效性。

Nov, 2023

VLT: 面向参考分割的视觉语言变换器和查询生成

该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割，其中包括 Query Generation Module，Query Balance Module 以及 masked contrastive learning，它们能够动态生成多个特定于输入的查询，以明晰理解语言表达的多样性，同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。

Oct, 2022

引入自然语言表达式将多目标跟踪推广到未见过的领域

通过引入自然语言表示来提高多目标跟踪模型的域泛化能力，本文提出了两个模块（视觉上下文提示和视觉 - 语言混合），用于生成本征于不同跟踪场景的实例级伪文字描述，并通过在 MOT17 上训练和在 MOT20 上验证，观察到该方法显著提高了基于查询的跟踪器的泛化性能。

Dec, 2022

基于生成式文本引导的三维视觉语言预训练，用于统一医学图像分割

本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证，结果表明该方法在医学图像分割任务中的效果优异。

Jun, 2023

VisionLLM v2：一种适用于数百种视觉语言任务的端到端通用多模态大语言模型

VisionLLM v2 是一种端到端的多模态大型模型，它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器，以实现灵活的任务信息传输和梯度反馈，并在多任务场景中解决训练冲突，并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化，达到与特定任务模型相当的性能。

Jun, 2024