学习区域的视频文本预训练

Dec, 2021

Video-Text Pre-training with Learned Regions

Rui Yan, Mike Zheng Shou, Yixiao Ge, Alex Jinpeng Wang, Xudong Lin...

TL;DR本研究提出一种新的视频文本表示学习模块（RegionLearner），能够在大规模视频文本对的预训练中考虑对象结构，并通过语义群聚来合并视觉特征，最终通过不同聚合区域之间的交互来建模，从而促进视频文本检索的效果。

Abstract

video-text pre-training aims at learning transferable representations from large-scale video-text pairs via aligning the semantics between visual and textual information. State-of-the-art approaches extract visual featu

video-text pre-training visual features regionlearner semantic clusters video-text retrieval

发现论文，激发创造

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

从文本网络监督中学习视频表征

通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练，本文提出了一种基于文本的学习视频表示的方法，证明了这种方法在预训练视频表示中比现有的方法更有效。

Jul, 2020

利用视觉语义推理进行视频 - 文本检索

为了提高视频检索的性能，我们提出了一种名为 ViSERN 的可视化语义增强的推理网络，该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征，并聚合这些特征以形成帧级特征，以求衡量视频和文本之间的相似性。

Jun, 2020

面向检测的图像 - 文本预训练的开放词汇测量

基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像 - 文本对中学习，我们的方法能够利用对比损失学习到新出现的对象 - 语义线索，在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023

利用文本区域增强的面向对象分层表示的自我监督场景文本分割

通过自我监督场景文本分割算法，基于对象为中心的分割方式将图像分割为文本和背景层，改进网络对文本的敏感性，以解决像素级标签和合成数据集的问题，取得了比现有算法更好的效果。

Aug, 2023

使用实体提示进行语言及视频预训练

本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt，通过提出视频 - 文本对比（VTC）损失和提示实体建模（PEM）任务来更好地跨模态对齐，从而学习精细的区域 - 实体对齐，与以前的方法相比取得了显着性能提升。

Dec, 2021

VideoCLIP：用于零样本视频文本理解的对比预训练

本文提出了 VideoCLIP，这是一种对比学习方法，用于在没有下游任务的标签情况下，预训练用于零样本视频和文本理解的统一模型。我们的实验表明，这种方法在一系列下游任务中的表现最优，超越了之前的工作，并在某些情况下甚至优于有监督方法。

Sep, 2021

Oscar: 面向视觉语言任务的对象 - 语义对齐预训练模型

本文介绍了一种基于目标检测的图像 - 文本预训练学习方法 Oscar，通过使用在图像中检测到的目标标签作为锚点，显著简化模型中的图像与文本的语义对齐，使其在六个视觉 - 语言理解和生成任务中创造了新的最好成果。

Apr, 2020

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022