FrameRS: 自监督视频帧重建模型和关键帧选取器构成的视频帧压缩模型

Sep, 2023

FrameRS: 自监督视频帧重建模型和关键帧选取器构成的视频帧压缩模型

FrameRS: A Video Frame Compression Model Composed by Self supervised Video Frame Reconstructor and Key Frame Selector

Qiqian Fu, Guanhong Wang, Gaoang Wang

TL;DR本研究提出了一个名为 FrameRS 的帧重建模型。它由自监督的视频帧重建器 FrameMAE 和关键帧选择器 Frame Selector 组成。FrameMAE 采用了 Masked Autoencoder for Images（MAE）的原理用于视频环境。Frame Selector 则基于 CNN 架构，并利用来自 FrameMAE 编码器的高层语义信息作为输入，可以以较低的计算成本预测关键帧。我们的模型集成了 Frame Selector 和 FrameMAE，可以有效地压缩视频片段，保留其关键帧的约 30%。在性能方面，我们的模型展示了计算效率和竞争性的准确性，显著改进了传统的关键帧提取算法。该模型的实现可在 Github 上找到。

Abstract

In this paper, we present frame reconstruction model: FrameRS. It consists self-supervised video frame reconstructor and key frame selector

frame reconstruction model self-supervised video frame reconstructor key frame selector masked autoencoder for images cnn architecture

发现论文，激发创造

基于大型模型的视频摘要顺序关键帧提取

大规模模型序列关键帧提取，包含 TransNetV21 和 CLIP2 模型的视频语义总结方法。通过提出的自适应聚类算法，剔除冗余并得出最终的序列关键帧。在与其他竞争方法的比较中，证实了这种方法的卓越性能。

Jan, 2024

基于注意力机制的深度神经网络关键帧提取

本文提出了一种基于深度自动编码器模型和注意力层的关键帧检测方法，该方法首先使用自动编码器的编码器部分从视频帧中提取特征，并使用 K-means 聚类算法对这些特征和相似帧进行分割，然后从每个簇中选择与簇中心最接近的帧作为关键帧，该方法在 TVSUM 视频数据集上达到了 0.77 的分类准确率，对于视频分析领域中的关键帧提取具有良好的应用前景。

Jun, 2023

基于残差帧的稀疏重构技术实现的可扩展视频超分辨率框架

文章提出了一个基于稀疏表示和压缩感知的超分辨率框架，用于在侦察和监视应用中对可扩展视频进行处理，实验结果表明，该框架具有更高的压缩率和更高的视频质量，是一种有效的压缩率更高、图像质量更优的视频处理算法。

Jul, 2017

使用循环自编码器和循环概率模型进行视频压缩学习

本文提出了一种采用循环自编码器（RAE）和循环概率模型（RPM）的递归学习视频压缩（RLVC）方法，以充分利用视频帧之间的时间相关性，实验结果表明，该方法在 PSNR 和 MS-SSIM 方面都达到了最先进的学习视频压缩性能，优于默认的 x265 低延迟 P（LDP）设置和 SSIM-tuned x265 等。

Jun, 2020

融合编码的自动编码器作为时空学习者

本文介绍了链接蒙版自动编码器（CatMAE）作为自我监督视频表示学习的时空学习器，该方法使模型能够估计可见补丁之间的运动信息，匹配前后帧之间的对应关系，并最终学习场景的演变。此外，还提出了一种新的数据增强策略，ViRe，进一步鼓励模型利用连续运动细节和对应关系来完成重建，从而增强模型的能力。与最先进的预训练方法相比，CatMAE 在视频分割任务和动作识别任务中取得了领先水平。

Nov, 2023

视频分类和关键帧识别的半监督和深度学习框架

本文提出了两种半监督方法以自动化视频流中的场景分类和筛选关键帧。所提出的框架可用于增加的视频数据流，以最少的训练图像自动训练感知驱动系统。

Mar, 2022

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

通过逐帧离散特征的自监督提取人体动作结构

本文提出了一种编码器 - 解码器模型，用于自我监督方式提取以逐帧离散特征表示的人体动作的结构。

Sep, 2023

智能画框选取作为人脸识别的隐私友好替代方案

本文提出了一种隐私友好的大规模人脸识别替代方案，使用过自动抽取高质量人脸快照的方式以减少收集的个人数据。为此，本文开发了一个基于变分自编码器的无监督人脸图像质量评估方法，并通过实验验证了其有效性。

Jan, 2021

M-LVC: 学习视频压缩的多帧预测

该研究提出了一种端到端的学习视频压缩方案，使用多个参考帧来提高数据压缩效率，其中包括运动向量 (MV) 场的计算、残差和 MV 的深度自编码压缩，以及一个利用多个参考帧的 MV 细化网络和残差细化网络。

Apr, 2020