SMC++：无监督视频语义压缩的遮蔽学习

Jun, 2024

SMC++：无监督视频语义压缩的遮蔽学习

SMC++: Masked Learning of Unsupervised Video Semantic Compression

Yuan Tian, Guo Lu, Guangtao Zhai

TL;DR该论文提出了一种基于遮罩视频建模的压缩框架，特别是针对视频语义进行压缩，通过自监督学习方式联合挖掘和压缩语义。提出的框架作为简单的语义挖掘与压缩模型，并通过引入遮罩运动预测目标和基于 Transformer 的压缩模块进行扩展，实现更好的语义学习能力和压缩效果。实验结果表明，该模型在三个视频分析任务和七个数据集上比传统的视频编解码器表现更卓越。

Abstract

Most video compression methods focus on human visual perception, neglecting semantic preservation. This leads to severe semantic loss during the compression, hampering downstream video analysis tasks. In this pap

video compression semantic preservation masked video modeling self-supervised learning transformer-based compression

发现论文，激发创造

基于遮罩视频一致性的 VSPW 数据集语义分割

我们提出了基于现有模型的基于蒙版视频一致性 (MVC) 的解决方案，通过在预测过程中强制保持遮挡帧之间的一致性来学习蒙版部分的分割结果和视频的前后帧之间的关系，同时采用测试时增强、模型聚合和多模态模型后处理方法，该方法在 VSPW 数据集上获得了 67.27％的 mIoU 性能，在 PVUW2024 挑战 VSS 跟踪中排名第 2。

Jun, 2024

E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

通过利用多种形式（例如视频、文本和图像）的多样性多模态数据来构建可扩展的模型，本文提出一种高效的视频 - 语言模型（E-ViLM）和掩码视频建模（MVM）模式，并辅以语义向量量化的分词器。通过简化的任务和常规的预训练模型，E-ViLM 能够从视频 - 语言语料库中学习表达性的表示，并在视频问答、文本到视频检索等广泛的视频 - 语言任务中具有很好的泛化性能，实现了明显的效率提升。

Nov, 2023

对比遮蔽自编码器用于自监督视频哈希

本研究提出了名为 ConMH 的一阶段自监督视频哈希方法，该方法通过采用编码器 - 解码器结构重构视频以捕获视频语义信息，并通过最大化两个视频增强视图之间的协议以充分利用视频之间的相似性关系。实验结果表明 ConMH 方法在大规模视频数据集上表现出色，是当前最佳方法之一。

Nov, 2022

多尺度动作感知和时空通道上下文编码网络用于学习视频压缩

提出一种基于运动感知、空时域通道上下文编码的视频压缩网络 (MASTC-VC)，该网络利用变分自编码器 (VAEs) 学习隐藏表示，捕捉帧内像素和帧间运动的特征，并通过多尺度运动感知模块 (MS-MAM) 和空时域通道上下文模块 (STCCM) 提高编码效率。在三个公共基准数据集上进行的综合实验表明，MASTC-VC 在 PSNR 度量上对 H.265/HEVC (HM-16.20) 平均 BD - 速率有 10.15％的节省，对 H.266/VVC (VTM-13.2) 平均 MS-SSIM 度量上有 23.93％的 BD - 速率节省。

Oct, 2023

神经图像压缩中有效的掩码采样建模探索

本研究旨在提出一种新的神经图像压缩预训练策略，引入 Cube Mask Sampling Module (CMSM) 以及 Learnable Channel Mask Module 和 Learnable Channel Completion Module (LCMM, LCCM)，有效降低了图像压缩的计算复杂度，同时提高了图像的质量。实验结果表明，与现有的图像压缩方法相比，本方法在 Kodak 和 Tecnick 数据集上实现了更好的性能。

Jun, 2023

MMVC: 带有基于块预测模式选择和密度自适应熵编码的学习多模式视频压缩

本研究提出了多模式视频压缩（MMVC）框架，通过深度学习和区块式模式集成选择最佳模式来适应各种动作模式和熵模型，包括 ConvLSTM，光流条件化特征域预测和特征传播，通过对空间块进行时间预测，以最大程度地减少数据的冗余和失真。实验表明，与最先进的视频压缩方案和标准编解码器相比，本方法在 PSNR 和 MS-SSIM 度量方面获得了更好或具有竞争力的结果。

Apr, 2023

SemanticMIM: 结合语义压缩的屏蔽图像建模用于通用视觉表示

本研究提出了一种简洁而有效的框架 SemanticMIM，以整合遮罩图像建模（MIM）和对比学习（CL）的优势，用于通用视觉表示。通过对 CL 和 MIM 进行彻底的比较分析，揭示了它们互补优势根源于压缩和重建两个不同阶段，而 SemanticMIM 利用代理架构自定义图像和掩码令牌之间的交互，以丰富的语义和位置感知性实现通用视觉表示。通过广泛的定性和定量评估，我们证明了 SemanticMIM 有效地融合了 CL 和 MIM 的优点，显著提升了性能和特征的线性可分性，并提供了引人注目的注意力响应可视化。

Jun, 2024

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022

数据高效的事件相机预训练通过解耦蒙版建模

我们提出了一种新的数据高效的基于体素的自监督学习方法，克服了以往方法的局限性，该方法通过预训练克服了通过将事件序列转换为 2D 图像以利用预训练图像模型，或直接使用成对图像数据进行知识蒸馏以增强事件流学习的方法所带来的对时间信息的牺牲。我们的自监督学习方法不依赖于成对的 RGB 图像，且能够在多个尺度上同时探索空间和时间线索，展现出卓越的泛化性能，在各种任务中显著改善参数更少、计算成本更低。

Mar, 2024

弱监督语义分割的遮盖式协同对比

本文介绍了一种有效的方法 Masked Collaborative Contrast（MCC），以突出弱监督语义分割中的语义区域。MCC 巧妙地将掩蔽图像建模和对比学习的概念结合起来，设计了可诱导关键字收缩到语义相关区域的 Transformer 块。实验表明，MCC 机制有效地对齐了图像的全局和局部视角，取得了令人印象深刻的性能。

May, 2023