可扩展的视频编码，为人类和机器而设计

MMAug, 2022

可扩展的视频编码，为人类和机器而设计

Scalable Video Coding for Humans and Machines

Hyomin Choi, Ivan V. Bajić

TL;DR本文提出了一种可扩展的视频编码框架，该框架通过基础层比特流支持机器视觉（特别是物体检测）和增强层比特流支持人类视觉，并且结果表明，该框架在物体检测方面比最先进的视频编解码器节省 13-19％的比特率，同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。

Abstract

Video content is watched not only by humans, but increasingly also by machines. For example, machine learning models analyze surveillance video for security and traffic monitoring, search through YouTube videos for inappropriate content, and so on. In this paper, we propose a scalable video coding framework that supports →

video coding machine vision object detection deep neural network bit savings

发现论文，激发创造

面向人类和机器的学习式可扩展视频编码

我们提出了一种全新的视频编码系统，基于条件编码的概念构建，其基础层支持机器视觉任务，而其增强层支持人类视觉重建，实验证明在基础层上，我们的框架优于现有的学习型视频编码和传统视频编码，并且在增强层上有可比性的性能。

Jul, 2023

可扩展的人机图像编码

研究了一种可扩展的学习图像编解码器，其潜在空间设计支持从简单到复杂的任务，旨在节省机器视觉任务的比特率，同时在输入重建方面与先进的图像编解码器相当。

Jul, 2021

人机视觉编码：可扩展的图像编码方法

本文介绍了一种新的图像编码方案，其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务，并使用紧凑边缘映射连接两种视觉模式，实现了对图像特征的重新构建，其提供了有用的证据支持 MPEG VCM（面向机器的视频编码）标准化工作。

Jan, 2020

VVC+M: 人机插拔式可扩展图像编码

提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法，这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能，同时在人类感知方面保持竞争性。

May, 2023

机器视觉视频编码：协作压缩和智能分析的典范

本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM)，并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案，并探讨了未来的方向。

Jan, 2020

采用对比度减弱的物体检测 VVC 扩展方案

本文介绍了一种基于 Versatile Video Coding 的视频编码方案，用于物体检测，通过减小图像尺寸和对比度的方式实现了更好的编码性能和物体检测精度。

May, 2023

NN-VVC：通过自我监督学习的图像编码来增强通用视频编码能力

本研究提出了一种名为 NN-VVC 的混合编解码器，结合了 E2E-learned 图像编解码器和传统视频编解码器 (CVC)，在图像和视频编码领域为机器实现高性能。实验证明，该系统在多个数据集和机器视觉任务上较 VVC 实现了高达 - 43.20% 和 - 26.8% 的 Bjøntegaard Delta 速率减小。据我们所知，这是第一篇在多个数据集和多个机器视觉任务上展示了优于 VVC 的混合视频编解码器的研究论文。

Jan, 2024

利用视频编码知识进行深度视频增强

本文提出了一种新的框架，利用视频压缩的低延迟配置和上下文自适应视频融合方法，提高 BasicVSR ++ 方法的质量，已在 NTIRE22 挑战中得到验证，并在定量指标和视觉质量方面与之前的方法相比均有所提高。

Feb, 2023

LVVC：用于高效人机视觉的学习通用视频编码框架

Versatile video coding framework is proposed to learn compact representations for both human and machine vision, featuring a feature-based compression loop and cross-domain motion encoder/decoder, with evaluation results showing its compression efficiency on different video tasks with benchmark datasets.

Jun, 2023

机器图像编码：一种端到端学习方法

本研究设计了一种基于神经网络的端到端学习的机器目标图像编解码器，通过一系列训练策略，解决了计算机视觉任务损失、图像失真损失和数据率损失之间竞争的问题，并在目标检测和实例分割任务中取得了比 VVC 标准更好的表现，是首个端到端学习的针对机器的图像编解码器。

Aug, 2021