用于高效视频文本检索的掩码对比预训练
该研究基于预测任务以及块状掩码策略,提出一种输入处理策略及无数据扩充方法,以达到在 SSV2、Diving48 等视频理解数据集上实现最先进效果的目的,并对模型伸缩性和预训练方法进行了详细分析。
Jun, 2021
这篇论文介绍了一种名为 VideoMAC 的新方法,结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets,以及一种称为 MVM 的简单而有效的遮罩视频建模方法,通过在下游任务中的表现超过了基于 ViT 的方法。
Feb, 2024
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
通过测量视频补丁和文本单元的冗余度,我们提出了一种针对视觉和文本信息之间互模态冗余问题的视频语言预训练方法,并通过冗余感知对比学习获得了显著的结果提升。
Oct, 2022
提供了一种简化、任务无关的多模态预训练方法,可以接受视频或文本输入,或两者皆可用于各种端任务。实验结果表明,在多种任务中表现出比以前的方法更强的性能,通常优于任务特定的预训练。
May, 2021
提出了一种名为蒙版对比与重建(MCR)的高效 VLP 框架,以蒙版数据作为两个任务的唯一输入,增强任务之间的连接,并显著减少所需的 GPU 内存和训练时间。通过映射不同的模态到一个公共特征空间,然后进行局部特征聚合,减少细粒度语义信息的损失,从而降低了 fine-grained 的模态对齐所需要的 gpu 内存和时间。在 MIMIC-CXR 数据集上进行的定性和定量实验验证了该方法的有效性,并展示了在医学跨模态检索任务中的最先进性能。
Dec, 2023
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域,提出了一个用于图像文本对比学习(ITC)目标的焦点损失,并进行多模态数据增强以进行自我监督学习。
Apr, 2023
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
本文应用了基于遮蔽的视觉建模(Masked visual modeling)技术在双编码器(dual-encoder)架构下进行视频文本预训练,并利用额外的视频编码器作为 “tokenizer” 去产生预测目标,并通过在空间和时间维度上进行推理来得到修正的视觉特征,以此提高局部视觉特征和跨模态对齐性,在四个数据集上均优于最先进的文本至视频检索方法。
Apr, 2022
我们提出了一种简单的策略,用于在视觉语言对比学习中遮盖图像补丁,从而提高所学表示的质量和训练速度。该策略随机遮盖视觉上相似的图像补丁群集,并通过强制模型仅根据上下文预测遮盖的视觉结构的单词,提供额外的学习信号,从而超过其他遮盖策略(如 FLIP)在所学表示的质量方面表现良好,并且通过减少每个图像中使用的数据来加速训练。
May, 2024