面具还原：视频文本检索的合作语义补全

May, 2023

面具还原：视频文本检索的合作语义补全

Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval

Han Fang, Zhifei Yang, Xianghao Zang, Chao Ban, Hao Sun

TL;DR本文提出一个基于语义蒙版建模的 Mask for Semantics Completion (MASCOT) 框架，通过基于注意力的视频蒙版生成高信息和低信息蒙版，利用蒙版内容与文本上下文对齐，实现了蒙版语义信息的恢复，并通过双蒙版协同学习来提高模型的视频表示性能，在四个主要的文本 - 视频检索基准上取得了最先进的性能。

Abstract

Recently, masked video modeling has been widely explored and significantly improved the model's understanding ability of visual regions at a local level. However, existing methods usually adopt random masking and follow the same reconstruction paradigm to complete the masked regions, w

masked video modeling semantic-based masked modeling informed semantics completion dual-mask co-learning text-video retrieval

发现论文，激发创造

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

通过多模态遮挡视频生成实现统一的文本引导视频完成

提供了一个新的任务，即文本引导下的视频完成（TVC），并提出了一种新的模型 —— 多模式蒙版视频生成（MMVG），通过文本输入生成高质量的视频完整图像，同时满足预测，倒带和填充的条件。

Nov, 2022

弱监督语义分割的遮盖式协同对比

本文介绍了一种有效的方法 Masked Collaborative Contrast（MCC），以突出弱监督语义分割中的语义区域。MCC 巧妙地将掩蔽图像建模和对比学习的概念结合起来，设计了可诱导关键字收缩到语义相关区域的 Transformer 块。实验表明，MCC 机制有效地对齐了图像的全局和局部视角，取得了令人印象深刻的性能。

May, 2023

跨模态医学图像 - 报告检索的掩码对比重建

提出了一种名为蒙版对比与重建（MCR）的高效 VLP 框架，以蒙版数据作为两个任务的唯一输入，增强任务之间的连接，并显著减少所需的 GPU 内存和训练时间。通过映射不同的模态到一个公共特征空间，然后进行局部特征聚合，减少细粒度语义信息的损失，从而降低了 fine-grained 的模态对齐所需要的 gpu 内存和时间。在 MIMIC-CXR 数据集上进行的定性和定量实验验证了该方法的有效性，并展示了在医学跨模态检索任务中的最先进性能。

Dec, 2023

利用语义完形学习进行视觉语言预训练的漏洞填补

本文提出新的语义完成学习任务，以便于视觉语言预训练（VLP）模型学习多模态数据的全局语义特征，从而实现全局到局部的对其，同时采用一种灵活的视觉编码器使得该模型可以同时执行图像 - 文本与视频 - 文本的多模态任务，实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。

Nov, 2022

通过对比掩模预测进行自监督视觉表示学习

本文提出了一种基于掩模对比学习（CMP）的自监督视觉表示法，利用区域级特征对比而不是视角层级特征对比，以消除隐式的语义一致性假设并实现正样本的无假设定位。使用专门的掩模预测头解决了掩模和非掩模特征之间的域差异，实验结果表明该方法在自然数据集上获得了可比较的性能，并且在大量下游任务上比 MoCo V2 表现更强。

Aug, 2021

视觉语言预训练的全局和局部语义补全学习

本文提出了一种 GLSCL 任务，旨在促进全局 - 局部对齐和局部 - 局部对齐，该任务包括 MGSC 和 MLTC，可通过跨模式交互补充掩码数据的缺失语义并恢复全局和局部特征，实验结果显示，该方法在多种视觉语言基准测试中获得了最先进的性能。

Jun, 2023

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

基于遮罩视频一致性的 VSPW 数据集语义分割

我们提出了基于现有模型的基于蒙版视频一致性 (MVC) 的解决方案，通过在预测过程中强制保持遮挡帧之间的一致性来学习蒙版部分的分割结果和视频的前后帧之间的关系，同时采用测试时增强、模型聚合和多模态模型后处理方法，该方法在 VSPW 数据集上获得了 67.27％的 mIoU 性能，在 PVUW2024 挑战 VSS 跟踪中排名第 2。

Jun, 2024