更多关注视觉语言跟踪

Jul, 2022

Divert More Attention to Vision-Language Tracking

Mingzhe Guo, Zhipeng Zhang, Heng Fan, Liping Jing

TL;DR本文介绍一种基于 ConvNets 和多模态视觉语言 (VL) 的追踪方法，通过模态混合器（ModaMixer）和不对称的 ConvNet 搜索，学习新颖的统一自适应 VL 表示，仅使用 ConvNets 能够在 SOTA 追踪中表现出色，甚至超过几个基于 Transformer 的 SOTA 追踪器。

Abstract

Relying on transformer for complex visual feature learning, object tracking has witnessed the new standard for state-of-the-arts (SOTAs). However, this advancement accompanies by larger training data and longer t

convnets vl tracking modamixer object tracking transformer

发现论文，激发创造

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

VOLO: 视觉展望者用于视觉识别

本研究介绍了一种新的注意力机制 - outlook attention，并提出了一个通用的神经网络架构 VOLO 来优化在 ImageNet 分类任务上基于自我注意力的视觉 transformer (ViT) 性能问题，VOLO 在没有额外训练数据的情况下，实现了 87.1％的 top-1 精度并在下游的语义分割任务中取得了良好的效果。

Jun, 2021

使用 Transformer 的视觉跟踪

本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络，通过自我关注模块和交叉注意力，提高了全局和丰富的背景信息获取，支持超越局部特征的追踪效果，在多个基准测试上表现出优异的性能。

May, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

SwinTrack：用于 Transformer 跟踪的简单和强大基线

本文提出了一种基于 Transformer 架构的简单且高效的完全注意力追踪器 SwinTrack，并对其进行了全面的实验。通过对运动标记进行轻量化和历史目标轨迹的嵌入，SwinTrack 在多个基准测试中取得了优于现有各种方法的最佳表现。该算法预计将为追踪任务奠定坚实的基础，并促进未来的研究。

Dec, 2021

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

通过网络修剪设计轻量级物体跟踪器：使用 CNN 或 Transformer？

本研究提出采用神经网络架构剪枝技术设计高度压缩的轻量级物体跟踪器，并提供最适合设计轻量级跟踪器的架构选择的比较研究。研究结果表明，在一定程度的压缩比下，使用 CNNs，transformers，以及两者的组合的 SOTA 跟踪器的稳定性不同，该研究为从现有 SOTA 方法中设计高效跟踪器提供了深入的见解。

Nov, 2022

基于移动视觉变压器的视觉目标跟踪

使用 MobileViT 作为骨干网络并采用融合模板和搜索区域表示的新方法，我们提出了一种轻量级、准确和快速的跟踪算法。实验结果表明，我们的基于 MobileViT 的追踪器 MVT 在大规模数据集 GOT10k 和 TrackingNet 上的性能超过了最新的轻量级追踪器，并且具有较高的推理速度。此外，我们的方法在模型参数减少 4.7 倍并在 GPU 上运行速度为 DiMP-50 追踪器的 2.8 倍的情况下，胜过了流行的 DiMP-50 追踪器。

Sep, 2023

基于 Hybrid Transformer 的特征融合用于自监督单目深度估计

本文介绍了一种新的深度估计模型，使用 Vision Transformers 来提取图像中的全局上下文信息，实现对深度估算的改进，最终该模型在标准测试数据集上达到了最优性能。

Nov, 2022

ReIDTrack：无运动的多对象追踪与分割

基于 CBNetV2 和 Swin-B 的检测模型以及 MoCo-v2 的自监督外观模型，我们探索了一种新的 SOTA 方向，通过去除运动信息和 IoU 映射，取得了在 CVPR2023 WAD 研讨会的 MOTS 轨迹上的第一名以及 MOT 轨迹上的第二名的简单有效方法。

Aug, 2023