VimTS：用于增强跨领域泛化能力的统一视频和图像文本识别器

Apr, 2024

VimTS：用于增强跨领域泛化能力的统一视频和图像文本识别器

VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization

Yuliang Liu, Mingxin Huang, Hao Yan, Linger Deng, Weijia Wu...

TL;DR通过集成多任务模型、合成视频文本数据集和学习时序信息，VimTS 模型在跨领域场景文本检测任务中展现出卓越的性能，并且相较于现有的大型多模态模型，所需参数和数据更为少。

Abstract

text spotting, a task involving the extraction of textual information from image or video sequences, faces challenges in cross-domain adaption, such as image-to-image and image-to-video generalization. In this pa

text spotting cross-domain adaption multi-task model synthetic video text dataset temporal information

发现论文，激发创造

GloTSFormer：全局视频文本定位变换器

提出了一种新颖的全局视频文本定位 Transformer 模型 GloTSFormer，利用高斯 Wasserstein 距离来指导帧间形态相关性，实现了视频文本定位的全局关联和多帧同时关联的目标，并在 ICDAR2015 视频数据集上进行了多组实验，GloTSFormer 方法相对于之前的 SOTA 模型在 MOTA 指标上提高了 4.6 个百分点，并相对于之前的基于 Transformer 的方法显著提高了 8.3 个百分点。

Jan, 2024

文本 - 视频检索的跨模态适配器

提出了一种跨模态适配器（Cross-Modal Adapter）方法，对预训练模型进行参数高效微调，可在多模态模型上减少 99.6％的参数、节省 30％的训练时间以及共享预训练模型，在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。

Nov, 2022

MDMMT：用于视频检索的多领域多模态 Transformer

通过对多个视频字幕数据集的正确组合，我们在 MSRVTT 和 LSMDC 基准测试上提出了一种新的文本到视频检索任务的最新技术，成果展示了在无微调的情况下，单一模型在两个数据集上实现了最先进的结果。

Mar, 2021

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

未见领域视频时刻检索的生成式视频扩散

本研究通过利用目标领域的句子（文本提示）而无需访问其视频，探索生成式视频扩散来编辑源视频，实现未知领域的视频时刻检索（VMR）。通过两个问题的解决，即产生具有微妙差异的不同时刻的高质量模拟视频和选择与现有源训练视频互补的模拟视频，优化未知领域的 VMR。

Jan, 2024

全局 - 局部语义一致学习的文本 - 视频检索

通过提出 Global-Local 语义一致性学习方法，该研究利用文本 - 视频预训练模型，实现在文本 - 视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐，并引入一致性损失和多样性损失，达到概念对齐和生成更有区分性的概念的目的。实验结果表明，该方法在多个基准测试中具有优越的性能和高效率。

May, 2024

领域泛化的 Prompt 视觉 Transformer

本论文提出了基于 prompt learning 的全新方法 DoPrompt，利用 domain prompts 嵌入源域的知识进行目标域的预测，针对视觉转换器 (ViT) 在领域泛化方面存在的问题，经过大量实验证明本文方法在四个基准数据集上获得了 1.4% 的精度提高，是基于 ViT 骨干结构的状态 - of-the-art 算法的 3.5 倍。

Aug, 2022

文本自适应的多视觉原型匹配用于视频检索

本文提出了一种文本自适应多视觉原型匹配模型，通过自适应聚合视频标记特征来描述视频，以解决视频和文本之间的关联模糊问题，而且此方法表现优于当前公共视频检索数据集上的最新技术。

Sep, 2022

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

跨模态通用蒸馏方法用于文本 - 视频检索

这篇论文探索了利用大规模预训练的多个文本编码器设计的算法，提出了一种新颖的综合蒸馏方法 TeachText，并将其拓展应用到视频检索上，在多个视频检索基准上超过了现有技术，而且在测试时不会增加计算负荷。

Apr, 2021