Jan, 2024

GloTSFormer:全局视频文本定位变换器

TL;DR提出了一种新颖的全局视频文本定位 Transformer 模型 GloTSFormer,利用高斯 Wasserstein 距离来指导帧间形态相关性,实现了视频文本定位的全局关联和多帧同时关联的目标,并在 ICDAR2015 视频数据集上进行了多组实验,GloTSFormer 方法相对于之前的 SOTA 模型在 MOTA 指标上提高了 4.6 个百分点,并相对于之前的基于 Transformer 的方法显著提高了 8.3 个百分点。