面向人类和机器的学习式可扩展视频编码

Jul, 2023

面向人类和机器的学习式可扩展视频编码

Learned Scalable Video Coding For Humans and Machines

Hadi Hadizadeh, Ivan V. Bajić

TL;DR我们提出了一种全新的视频编码系统，基于条件编码的概念构建，其基础层支持机器视觉任务，而其增强层支持人类视觉重建，实验证明在基础层上，我们的框架优于现有的学习型视频编码和传统视频编码，并且在增强层上有可比性的性能。

Abstract

video coding has traditionally been developed to support services such as video streaming, videoconferencing, digital TV, and so on. The main intent was to enable human viewing of the encoded content. However, with the advances in →

video coding deep neural networks automatic video analytics conditional coding learned video codec

发现论文，激发创造

可扩展的视频编码，为人类和机器而设计

本文提出了一种可扩展的视频编码框架，该框架通过基础层比特流支持机器视觉（特别是物体检测）和增强层比特流支持人类视觉，并且结果表明，该框架在物体检测方面比最先进的视频编解码器节省 13-19％的比特率，同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。

Aug, 2022

可扩展的人机图像编码

研究了一种可扩展的学习图像编解码器，其潜在空间设计支持从简单到复杂的任务，旨在节省机器视觉任务的比特率，同时在输入重建方面与先进的图像编解码器相当。

Jul, 2021

机器图像编码：一种端到端学习方法

本研究设计了一种基于神经网络的端到端学习的机器目标图像编解码器，通过一系列训练策略，解决了计算机视觉任务损失、图像失真损失和数据率损失之间竞争的问题，并在目标检测和实例分割任务中取得了比 VVC 标准更好的表现，是首个端到端学习的针对机器的图像编解码器。

Aug, 2021

人机视觉编码：可扩展的图像编码方法

本文介绍了一种新的图像编码方案，其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务，并使用紧凑边缘映射连接两种视觉模式，实现了对图像特征的重新构建，其提供了有用的证据支持 MPEG VCM（面向机器的视频编码）标准化工作。

Jan, 2020

NN-VVC：通过自我监督学习的图像编码来增强通用视频编码能力

本研究提出了一种名为 NN-VVC 的混合编解码器，结合了 E2E-learned 图像编解码器和传统视频编解码器 (CVC)，在图像和视频编码领域为机器实现高性能。实验证明，该系统在多个数据集和机器视觉任务上较 VVC 实现了高达 - 43.20% 和 - 26.8% 的 Bjøntegaard Delta 速率减小。据我们所知，这是第一篇在多个数据集和多个机器视觉任务上展示了优于 VVC 的混合视频编解码器的研究论文。

Jan, 2024

机器视觉视频编码：协作压缩和智能分析的典范

本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM)，并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案，并探讨了未来的方向。

Jan, 2020

VVC+M: 人机插拔式可扩展图像编码

提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法，这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能，同时在人类感知方面保持竞争性。

May, 2023

学习型视频压缩

我们提出了一种 ML-based 的视频编码算法，通过评估不同分辨率和基于商业编解码器的标准视频压缩测试集发现，在低延迟模式下相对于 HEVC/H.265, AVC/H.264 和 VP9，我们的算法通常产生更小的代码。并且，我们的方法不会出现图块失真和像素化，可以产生更加视觉上令人愉悦的视频。

Nov, 2018

LVVC：用于高效人机视觉的学习通用视频编码框架

Versatile video coding framework is proposed to learn compact representations for both human and machine vision, featuring a feature-based compression loop and cross-domain motion encoder/decoder, with evaluation results showing its compression efficiency on different video tasks with benchmark datasets.

Jun, 2023

机器端到端优化的图像压缩研究

本文提出了一种基于神经网络的编解码及任务模型的联合训练方法，用于实现远程机器任务分析的图像压缩，研究表明，进行编解码和任务网络的联合优化可以显著提高任务准确性，在训练和部署的限制下，可以选择性地进行编码器、解码器或任务网络的微调，并仍然实现高于现成解决方案的速率和准确度。

Nov, 2020