一体化探索：多模态对齐下的统一视觉语言跟踪

Jul, 2023

一体化探索：多模态对齐下的统一视觉语言跟踪

All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment

Chunhui Zhang, Xin Sun, Li Liu, Yiqian Yang, Qiong Liu...

TL;DR现有主流的视觉语言（VL）跟踪框架由三部分组成，即视觉特征提取器，语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架，通过采用统一的 Transformer 骨干结构，学习联合特征提取和交互，实现了特征的统一融合，消除了特征集成和融合模块的需求，从而在视觉语言跟踪方面获得了更有效和高效的结果。

Abstract

Current mainstream vision-language (VL) tracking framework consists of three parts, \ie a visual feature extractor, a language feature extractor, and a fusion model. To pursue better performance, a natural modus operandi for VL tracking is employing customized and heavier unimodal enco

vision-language tracking fusion model unified transformer backbone multi-modal alignment module vl tracking framework

发现论文，激发创造

迈向视觉语言跟踪的统一标记学习

该研究提出了一种简单、灵活且有效的视觉 - 语言（VL）跟踪管道，称为 MMTrack，它将 VL 跟踪视为一个标记生成任务，并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数，该设计范式极大地降低了 VL 跟踪建模的复杂性，并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明，与其他最先进的方法相比，我们的方法取得了令人满意的结果。

Aug, 2023

一体化：探索统一的视视频 - 语言预训练

介绍了一种基于 all-in-one Transformer 的视频 - 语言端到端模型，采用新的 token rolling 操作，实现了视频数据的时间表示方式，同时赋予模型能够处理多模态输入的能力。该模型通过 fine-tuning 能够在文本 - 视频检索、视频问答、多项选择和视觉常识推理等多个数据集上达到 state-of-the-art 的性能表现。

Mar, 2022

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

统一视觉和视觉 - 语言跟踪的对比学习

单目标跟踪 UVLTrack 是一个统一的跟踪器，可同时处理边界框（BBOX）、自然语言（NL）和两者（NL+BBOX）的参考设置，并具有多种优势，包括模态一致的特征提取器、多模态对比性损失和模态自适应盒子头。在多个数据集上 extensive 实验结果显示，UVLTrack 在视觉跟踪、视觉语言跟踪和视觉定位方面具有有前景的性能。

Jan, 2024

OneLLM：一种将所有模态与语言对齐的框架

通过统一的多模态编码器和渐进式多模态对齐管道，OneLLM 将八种模态与语言对齐，以充分发挥其在指令跟随中的潜力；在全面的多模态指令数据集上进行评估，并在多模态字幕生成、问答和推理等任务中展现出优异性能。

Dec, 2023

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

OmniVL: 图像 - 语言和视频 - 语言任务的基础模型

OmniVL 提出了一种新的基础模型，它通过使用一种通用架构来支持图像语言和视频语言任务，采用了一种统一的基于 Transformer 的视觉编码器，以此来实现联合图像语言和视频语言的预训练，并展示了这种范式的好处，并且这种模型能够同时支持视觉任务，跨模态任务和多模态理解。

Sep, 2022

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

UNIMO-2: 端到端的统一视觉语言基础学习

本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架，采用 “基础学习” 方案，成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。

Mar, 2022

更多关注视觉语言跟踪

本文介绍一种基于 ConvNets 和多模态视觉语言 (VL) 的追踪方法，通过模态混合器（ModaMixer）和不对称的 ConvNet 搜索，学习新颖的统一自适应 VL 表示，仅使用 ConvNets 能够在 SOTA 追踪中表现出色，甚至超过几个基于 Transformer 的 SOTA 追踪器。

Jul, 2022