更多关注视觉语言跟踪
我们设计了一种有效的视觉 - 语言表示方法,同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术,以及对不同模态之间进行对比损失的引入,我们能够显著改善追踪问题的解决方案,并期望将更多注意力转向视觉 - 语言追踪,为未来的多样化多模态消息追踪开辟更多可能性。
Jul, 2023
本研究介绍了一种新的注意力机制 - outlook attention,并提出了一个通用的神经网络架构 VOLO 来优化在 ImageNet 分类任务上基于自我注意力的视觉 transformer (ViT) 性能问题,VOLO 在没有额外训练数据的情况下,实现了 87.1%的 top-1 精度并在下游的语义分割任务中取得了良好的效果。
Jun, 2021
本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络,通过自我关注模块和交叉注意力,提高了全局和丰富的背景信息获取,支持超越局部特征的追踪效果,在多个基准测试上表现出优异的性能。
May, 2021
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
本文提出了一种基于 Transformer 架构的简单且高效的完全注意力追踪器 SwinTrack,并对其进行了全面的实验。通过对运动标记进行轻量化和历史目标轨迹的嵌入,SwinTrack 在多个基准测试中取得了优于现有各种方法的最佳表现。该算法预计将为追踪任务奠定坚实的基础,并促进未来的研究。
Dec, 2021
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型,在规范化的平均得分上取得了最高 12.99% 的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
本研究提出采用神经网络架构剪枝技术设计高度压缩的轻量级物体跟踪器,并提供最适合设计轻量级跟踪器的架构选择的比较研究。研究结果表明,在一定程度的压缩比下,使用 CNNs,transformers,以及两者的组合的 SOTA 跟踪器的稳定性不同,该研究为从现有 SOTA 方法中设计高效跟踪器提供了深入的见解。
Nov, 2022
使用 MobileViT 作为骨干网络并采用融合模板和搜索区域表示的新方法,我们提出了一种轻量级、准确和快速的跟踪算法。实验结果表明,我们的基于 MobileViT 的追踪器 MVT 在大规模数据集 GOT10k 和 TrackingNet 上的性能超过了最新的轻量级追踪器,并且具有较高的推理速度。此外,我们的方法在模型参数减少 4.7 倍并在 GPU 上运行速度为 DiMP-50 追踪器的 2.8 倍的情况下,胜过了流行的 DiMP-50 追踪器。
Sep, 2023
本文介绍了一种新的深度估计模型,使用 Vision Transformers 来提取图像中的全局上下文信息,实现对深度估算的改进,最终该模型在标准测试数据集上达到了最优性能。
Nov, 2022
基于 CBNetV2 和 Swin-B 的检测模型以及 MoCo-v2 的自监督外观模型,我们探索了一种新的 SOTA 方向,通过去除运动信息和 IoU 映射,取得了在 CVPR2023 WAD 研讨会的 MOTS 轨迹上的第一名以及 MOT 轨迹上的第二名的简单有效方法。
Aug, 2023