GloTSFormer：全局视频文本定位变换器

Jan, 2024

GloTSFormer：全局视频文本定位变换器

GloTSFormer: Global Video Text Spotting Transformer

Han Wang, Yanjie Wang, Yang Li, Can Huang

TL;DR提出了一种新颖的全局视频文本定位 Transformer 模型 GloTSFormer，利用高斯 Wasserstein 距离来指导帧间形态相关性，实现了视频文本定位的全局关联和多帧同时关联的目标，并在 ICDAR2015 视频数据集上进行了多组实验，GloTSFormer 方法相对于之前的 SOTA 模型在 MOTA 指标上提高了 4.6 个百分点，并相对于之前的基于 Transformer 的方法显著提高了 8.3 个百分点。

Abstract

video text spotting (VTS) is a fundamental visual task that aims to predict the trajectories and content of texts in a video. Previous works usually conduct local associations and apply IoU-based distance and complex post-processing procedures to boost performance, ignoring the abundan

video text spotting global video text spotting transformer glotsformer wasserstein distance transformer-based global tracking method

发现论文，激发创造

VimTS：用于增强跨领域泛化能力的统一视频和图像文本识别器

通过集成多任务模型、合成视频文本数据集和学习时序信息，VimTS 模型在跨领域场景文本检测任务中展现出卓越的性能，并且相较于现有的大型多模态模型，所需参数和数据更为少。

Apr, 2024

基于时空变换器的视频行人重新识别

本研究将 Transformer 应用于基于视频的人体再识别，提出一种新的基于预训练的模型，并使用感知约束的时空 Transformer 模块和全局 Transformer 模块转换到下游域，取得了显著的准确率提高。

Mar, 2021

TextFormer：一种基于查询的端对端混合监督文字定位器

TextFormer 提出了一种使用 Transformer 架构实现的查询式端到端文本定位算法，采用多任务建模的联合语义理解，并通过自适应全局聚合模块处理任意形状的文本，通过弱监督和全标注的语料库信息提升检测和端到端文本定位结果，实现了在双语数据集上的显著优势。

Jun, 2023

TAFormer：面向航拍场景中视频和运动联合预测的统一目标感知 Transformer

无人机技术的不断进步使得使用无人机进行高空遥感成为现代低空遥感的主导趋势。随着航拍视频数据的激增，对于感兴趣目标未来场景和运动状态的准确预测尤为重要，尤其在交通管理和灾难响应等应用领域。现有的视频预测方法仅关注预测未来场景，忽视了目标运动状态的显式建模，这对于航拍视频解释来说至关重要。针对该问题，我们引入了一项新颖的任务，命名为目标感知航拍视频预测，旨在同时预测未来场景和目标的运动状态。此外，我们设计了一个专门针对该任务的模型，名为 TAFormer，它提供了一个统一的建模方法，可以同时建模视频和目标的运动状态。具体而言，我们引入了时空关注机制（STA），将视频动态学习分解为空间静态关注和时间动态关注，有效建模场景外观和运动。另外，我们设计了一种信息共享机制（ISM），通过两组信使令牌促进信息交互，优雅地统一了对视频和目标运动的建模。另外，为了减轻模糊预测中目标识别的困难，我们引入了目标敏感高斯损失（TSGL），增强了模型对目标位置和内容的敏感性。在 UAV123VP 和 VisDroneVP 等数据集上进行了大量实验证明了 TAFormer 在目标感知视频预测方面的卓越性能，展示了其适应航拍视频解释的额外要求。

Mar, 2024

VSFormer：视觉空间融合 Transformer 用于对应关系修剪

在本文中，我们提出了一种名为 VSFormer 的视觉空间融合转换器，通过交叉关注获取场景的高度抽象视觉线索，进而通过联合视觉空间融合模块将这些视觉线索嵌入到相应的对应关系中，实现对内点的识别和相机姿态恢复，同时通过结合基于 KNN 的图和转换器的新颖模块有效捕捉局部和全局背景的一致性，大量实验证明所提出的 VSFormer 在室内外基准上优于现有方法。

Dec, 2023

分层本地 - 全局变压器用于时间句子定位

本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题，并将其应用于 temporal sentence grounding 任务，通过跨模态平行变压器解码器将其编码为最终的基础。

Aug, 2022

全球跟踪变压器

本论文提出了一种新型基于 Transformer 的架构，用于全局多目标跟踪，通过对各帧图像上的物体特征进行编码，通过路径查询将其分组成轨迹，与目标检测器联合训练，可以实现对任意对象的跟踪，并在 MOT17 基准测试中实现了 75.3 的 MOTA 和 59.1 的 HOTA，超越了基于成对联想的基线，并在 TAO 数据集上得到显著的 7.7 跟踪 mAP 的提高。

Mar, 2022

GLT-T: 3D 点云中全局 - 局部 Transformer 投票进行单物体跟踪

本研究提出了一种新的全局局部 Transformer 投票方案，以提供更多信息提示，引导模型更多地关注潜在的种子点，从而促进高质量的 3D 提案的生成，并实验表明该方法在 3D 单对象跟踪任务中具有最先进的性能。

Nov, 2022

LocVTP: 视频文本预训练用于时间定位

本文提出了一种面向本地化任务的视频文本预训练框架 LocVTP，通过精细对比对齐和上下文感知等机制，提高了其学到的特征的时空推理能力和传递性，实现了在四个下游任务上的最优表现。

Jul, 2022

从自然剧本知识中学习可转移的时空表示

本研究提出了一种利用语义转录排序来增强可转移的时空表示学习的方法，通过将视觉模型与自然转录的语言知识结合起来，使视频模型能够在时间上建立背景并重塑叙述性的转录，从而实现在多样化数据集上表现出色。

Sep, 2022