通过孪生掩模条件变分自动编码器重建看不见的视频帧

Jan, 2024

通过孪生掩模条件变分自动编码器重建看不见的视频帧

Reconstructing the Invisible: Video Frame Restoration through Siamese Masked Conditional Variational Autoencoder

Yongchen Zhou, Richard Jiang

TL;DR该研究论文介绍了 Siamese Masked Conditional Variational Autoencoder（SiamMCVAE）技术，利用基于视觉变换器的孪生编码器的孪生架构。这一创新设计通过捕捉成对帧之间的内在相似性，增强了模型理解丢失内容的能力。SiamMCVAE 能够高效地重建蒙版帧中丢失的元素，通过变分推断有效地解决了由于相机故障引起的问题。实验证明了该模型在恢复缺失信息方面的有效性，从而提高了计算机视觉系统的韧性。在 SiamMCVAE 中引入 Siamese Vision Transformer (SiamViT) 编码器展示了应对计算机视觉领域现实挑战的潜力，增强了自主系统在动态环境中的适应能力。

Abstract

In the domain of computer vision, the restoration of missing information in video frames is a critical challenge, particularly in applications such as autonomous driving and surveillance systems. This paper intro

computer vision missing information restoration siamese masked conditional variational autoencoder vision transformers autonomous driving

发现论文，激发创造

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

MV2MAE：多视角视频掩码自编码器

从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Jan, 2024

融合编码的自动编码器作为时空学习者

本文介绍了链接蒙版自动编码器（CatMAE）作为自我监督视频表示学习的时空学习器，该方法使模型能够估计可见补丁之间的运动信息，匹配前后帧之间的对应关系，并最终学习场景的演变。此外，还提出了一种新的数据增强策略，ViRe，进一步鼓励模型利用连续运动细节和对应关系来完成重建，从而增强模型的能力。与最先进的预训练方法相比，CatMAE 在视频分割任务和动作识别任务中取得了领先水平。

Nov, 2023

VideoMAC: 视频蒙版自动编码器与卷积神经网络相遇

这篇论文介绍了一种名为 VideoMAC 的新方法，结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets，以及一种称为 MVM 的简单而有效的遮罩视频建模方法，通过在下游任务中的表现超过了基于 ViT 的方法。

Feb, 2024

T-MAE：用于点云表示学习的时态掩码自动编码器

在户外点云分割中，基于转换器等先进网络的建模能力受制于标注数据的稀缺性。为了更好地利用点云序列中蕴含的时间信息，本文提出了一种有效的预训练策略，即时序遮蔽自动编码器 (Temporal Masked AutoEncoders, T-MAE)，通过输入与时间相关的相邻帧并学习时间依赖关系。T-MAE 预训练策略结合了 SiamWCA 骨干网络，其中包含了孪生编码器和基于窗口的交叉注意力模块 (window-based cross-attention, WCA)，用于接收两帧输入。此外，为了提高目标对象的理解能力，时间建模还作为一种稳健且天然的数据增强方法，在同一对象的不同帧之间考虑自车运动改变的照明角度。通过使用遥远的历史帧而非连续帧，可以更加成本有效且强大。在自监督学习方法中，利用 T-MAE 预训练策略在 Waymo 数据集上实现了最佳性能。通过全面实验验证了本提案的所有组成部分。在接受后，源代码将会公开。

Dec, 2023

掩蔽连体卷积网络

本文研究掩蔽 Siamese 网络在卷积神经网络下的问题，并提出多个经验设计来逐渐解决这些问题。该方法在低样本图像分类上表现有竞争力，并在目标检测基准测试中优于以前的方法。

Jun, 2022

具有 Siamese 裁剪遮罩自编码器的高效图像预训练

CropMAE 是一种替代 SiamMAE 的 Siamese 预训练方法，通过仅考虑从同一图像裁剪而来的图像对，而不是从视频中提取的帧对，从而减少了对视频数据集的需求，同时保持了竞争性能，并大幅减少了预训练时间。此外，CropMAE 证明了它能够学习类似的物体中心化表示，而不需要明确的运动，这表明当前的自监督学习方法并不是从运动中学习对象，而是依赖于 Siamese 架构。最后，CropMAE 实现了迄今最高的遮挡比例（98.5%），仅使用两个可见的补丁就能重建图像。

Mar, 2024

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023