特征屏蔽建模：自下而上视频事件识别的无监督预训练图注意力网络块的特征屏蔽

Aug, 2023

特征屏蔽建模：自下而上视频事件识别的无监督预训练图注意力网络块的特征屏蔽

Masked Feature Modelling: Feature Masking for the Unsupervised Pre-training of a Graph Attention Network Block for Bottom-up Video Event Recognition

PDF

Dimitrios Daskalakis, Nikolaos Gkalelis, Vasileios Mezaris

TL;DR本文提出了一种新的方法，即遮蔽特征建模（MFM），用于无监督的图注意力网络（GAT）块的预训练。MFM 利用预训练的视觉令牌生成器重构视频中对象的遮蔽特征，利用 MiniKinetics 数据集。然后，将预训练的 GAT 块纳入最先进的自下而上的监督视频事件识别架构 ViGAT，以改进模型的起点和整体准确性。对 YLI-MED 数据集的实验评估表明，MFM 在改进事件识别性能方面是有效的。

Abstract

In this paper, we introduce masked feature modelling (MFM), a novel approach for the unsupervised pre-training of a graph attention network

masked feature modelling graph attention network pre-training minikinetics dataset event recognition

发现论文，激发创造

面具特征预测用于自监督视觉预训练

本研究提出了 Masked Feature Prediction (MaskFeat) 方法，它使用随机遮挡的方式自我监督预训练视频模型，主要利用 Histograms of Oriented Gradients（HOG）这种手工特征描述符，探讨了 5 种不同的特征，并发现其中 HOG 在性能和效率方面表现出色，该方法在无需使用额外模型权重或监督的情况下，使用未标记视频预训练，可以实现 86.7％的 Kinetics-400 分类准确率，拥有出色的表现。

Dec, 2021

自监督视觉预训练的掩码频率建模

本文提出了一种基于频域的自监督预训练的方法，称作 Masked Frequency Modeling（MFM），通过在图像的频率分量上进行遮蔽，并预测其丢失的频率信息来学习图像的表示，实验证明该方法在图像分类、语义分割以及鲁棒性测试方面的性能优于其他最近的基于遮蔽的图像建模方法。此外，本文还全面调查了传统图像恢复任务对于从频域角度进行表示学习的有效性，并揭示了它们与 MFM 方法之间的有趣关系。

Jun, 2022

数据高效的事件相机预训练通过解耦蒙版建模

我们提出了一种新的数据高效的基于体素的自监督学习方法，克服了以往方法的局限性，该方法通过预训练克服了通过将事件序列转换为 2D 图像以利用预训练图像模型，或直接使用成对图像数据进行知识蒸馏以增强事件流学习的方法所带来的对时间信息的牺牲。我们的自监督学习方法不依赖于成对的 RGB 图像，且能够在多个尺度上同时探索空间和时间线索，展现出卓越的泛化性能，在各种任务中显著改善参数更少、计算成本更低。

Mar, 2024

遮蔽视频蒸馏：重新思考遮蔽特征建模，以进行自监督视频表示学习

本文提出基于两阶段模型的掩模视频蒸馏方法 (MVD)，并采用空间 - 时间共同教学方法进行电影变换器的预训练，实验证明该方法对于多个视频数据集优于现有方法。

Dec, 2022

MaskViT: 视频预测的掩蔽视觉预训练

本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型，且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。

Jun, 2022

自监督图层掩蔽预训练用于图到文本生成

该论文提出了使用图形遮盖的预训练策略来提高图到文本生成任务中预训练模型的效果，该方法取得了 WebNLG+2020 和 EventNarrative 数据集上的最新最好成果，并在低资源设置中表现出非常有效的结果。

Oct, 2022

对比特征遮罩开放词汇视觉变换器

CFM-ViT 是一种图像 - 文本预训练方法，具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器（MAE）目标与对比学习目标相结合，CFM-ViT 在联合图像 - 文本嵌入空间中进行重构，以比传统的 MAE 方法更好地学习区域级语义。此外，引入位置嵌入丢弃（PED）来解决图像 - 文本预训练和检测微调之间的尺度变化，从而提高检测性能并利用冻结的 ViT 骨干作为区域分类器，避免在检测微调过程中遗忘开放词汇知识。在 LVIS 开放词汇检测基准下，CFM-ViT 实现了 33.9 AP$r$ 的最新成果，超过最佳方法 7.6 个点，并在零样本检测转移方面取得更好的效果。最后，CFM-ViT 获得了强大的图像级表示，在 8 个零样本图像 - 文本检索基准中表现出了优于当前技术水平的成绩。

Sep, 2023

自监督视频表示学习的掩模运动编码

提出了一种名为 MME 的预训练模型，旨在通过重建外观和运动信息来探索时序线索，从而改善视频表示性能。方法着重解决多帧间的长期运动和从稀疏视频中获取细粒度时序线索这两个关键问题，并通过重建模糊区域中代表位置和形状变化的运动轨迹，使预训练模型进一步预测运动细节。

Oct, 2022

视频中异常事件的揭示

提出了一种基于 unmasking 技术的异常事件检测方法，通过逐步训练二分类器标记出视频序列中的异常事件，并在四个数据集上与多种监督学习和非监督学习方法进行了比较，结果显示该方法可在实时环境下处理高速视频并取得最优表现。

May, 2017

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022