冷酷时尚的视频：以 800 个参数进行学习式视频编码

Feb, 2024

冷酷时尚的视频：以 800 个参数进行学习式视频编码

Cool-chic video: Learned video coding with 800 parameters

Thomas Leguay, Théo Ladune, Pierrick Philippe, Olivier Déforges

TL;DR我们提出了一种轻量级的学习视频编解码器，每个解码像素只需要 900 个乘法和 800 个总参数。它结合了过拟合的图像编解码器 Cool-chic，并通过一个间接编码模块来利用视频的时间冗余。该模型能够以低延迟和随机访问配置压缩视频，达到接近 AVC 的速率失真，并超越其他过拟合编解码器如 FFNeRV。该系统已开源：orange-opensource.github.io/Cool-Chic。

Abstract

We propose a lightweight learned video codec with 900 multiplications per decoded pixel and 800 parameters overall. To the best of our knowledge, this is one of the neural video codecs with the lowest

lightweight learned video codec neural video codecs decoding complexity temporal redundancies rate-distortion

发现论文，激发创造

C3: 单图像或视频的高性能低复杂度神经压缩

C3 是一种神经压缩方法，通过对每个图像或视频进行过度拟合从而获得强大的率失真性能，其解码复杂度与其他具有相似率失真性能的神经模型相比可降低一个数量级。C3 在 COOL-CHIC 的基础上进行改进，并且还开发了将 C3 应用于视频的新方法。在 CLIC2020 图像基准测试中，我们将 C3 解码的每个像素的 MAC 数减少到不足 3k，与 H.266 编解码器的 VDH 性能相当。在 UVG 视频基准测试中，我们将 C3 解码的每个像素的 MAC 数减少到不足 5k，与 Video Compression Transformer 的 VDH 性能相当。

Dec, 2023

学习型视频压缩

我们提出了一种 ML-based 的视频编码算法，通过评估不同分辨率和基于商业编解码器的标准视频压缩测试集发现，在低延迟模式下相对于 HEVC/H.265, AVC/H.264 和 VP9，我们的算法通常产生更小的代码。并且，我们的方法不会出现图块失真和像素化，可以产生更加视觉上令人愉悦的视频。

Nov, 2018

ELF-VC: 高效学习的可灵活调节码率视频编码

通过提出几种新颖的方法，如专门用于机器学习的高效骨干网络和基于优化的流预测方案，我们的方法 ELF-VC 在视频压缩的低延迟模式下（只有 I 帧和 P 帧）具有更高的性能和更好的效率，与主流视频标准（如 H.264 、 H.265 、 AV1）和所有机器学习编解码器相比，在比特率范围内具有很好的 PSNR 、 MS-SSIM 、 VMAF 等指标，而且至少比所有机器学习编解码器都快 5 倍，并有更少的参数。

Apr, 2021

VcLLM：视频编解码器是密集张量编解码器

我们的研究发现，尽管视频编解码器最初是为压缩视频而设计的，但在压缩各种类型的张量时显示出极高的效率。我们展示了视频编解码器可以成为通用的张量编解码器，同时在各种任务中实现了最先进的压缩效率。我们进一步利用了 GPU 上可用的硬件视频编解码模块创建了一个能够同时进行推理和训练的框架，将视频编解码器重新用作张量编解码器。这极大地减少了对内存容量和通信带宽的要求，使得大型模型可以在消费级 GPU 上进行训练和推理。

Jun, 2024

AlphaVC：高性能和高效的学习型视频压缩

本文提出了 AlphaVC 的压缩算法，采用了几种新的技术来有效地提高压缩性能，包括引入条件 I 帧、像素到特征的运动预测方法和基于概率的熵跳过方法。AlphaVC 在所有常见测试数据集上的 PSNR 和 MSSSIM 指标上均超过了最新的压缩标准 VVC，并且具有非常快的编码和解码速度。

Jul, 2022

MobileNVC: 移动设备上实时 1080p 神经视频压缩

该研究提出了第一个在移动设备上实时解码 1080p YUV420 视频的神经视频编解码器，它利用基于块的运动补偿算法实现了高效编解码，并通过在神经信号处理器上同时运行神经网络组件、在移动 GPU 上运行并行熵编码以及在加速器的变换核上实现变换，从而在性能上显著超过之前的设备上编解码器。

Oct, 2023

梯度衰减和逐层蒸馏加速学习视频编解码器

最近几年，端到端学习的视频编码器在压缩效率方面已经显示出与传统编码算法竞争的潜力。然而，大多数基于学习的视频压缩模型与高计算复杂性和延迟相关，特别是在解码器方面，这限制了它们在实际应用中的部署。本文提出了一种基于梯度衰减和自适应分层蒸馏的新型模型不可知剪枝方案。梯度衰减增强了稀疏化过程中的参数探索，同时防止过度稀疏，比标准的直通估计方法更优。自适应分层蒸馏根据中间特征的失真情况，在不同阶段有效地调整稀疏训练，以最小的计算开销更新参数。所提出的方法已应用于三种流行的端到端学习的视频编码器，即 FVC、DCVC 和 DCVC-HEM。结果表明，我们的方法在 MACS 上减少了高达 65％，速度提升了 2 倍，并且 BD-PSNR 下降不到 0.3dB。支持代码和补充材料可从此 https URL 下载。

Dec, 2023

LVVC：用于高效人机视觉的学习通用视频编码框架

Versatile video coding framework is proposed to learn compact representations for both human and machine vision, featuring a feature-based compression loop and cross-domain motion encoder/decoder, with evaluation results showing its compression efficiency on different video tasks with benchmark datasets.

Jun, 2023

NN-VVC：通过自我监督学习的图像编码来增强通用视频编码能力

本研究提出了一种名为 NN-VVC 的混合编解码器，结合了 E2E-learned 图像编解码器和传统视频编解码器 (CVC)，在图像和视频编码领域为机器实现高性能。实验证明，该系统在多个数据集和机器视觉任务上较 VVC 实现了高达 - 43.20% 和 - 26.8% 的 Bjøntegaard Delta 速率减小。据我们所知，这是第一篇在多个数据集和多个机器视觉任务上展示了优于 VVC 的混合视频编解码器的研究论文。

Jan, 2024

面向人类和机器的学习式可扩展视频编码

我们提出了一种全新的视频编码系统，基于条件编码的概念构建，其基础层支持机器视觉任务，而其增强层支持人类视觉重建，实验证明在基础层上，我们的框架优于现有的学习型视频编码和传统视频编码，并且在增强层上有可比性的性能。

Jul, 2023