人机视觉编码：可扩展的图像编码方法

Jan, 2020

人机视觉编码：可扩展的图像编码方法

Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach

Yueyu Hu, Shuai Yang, Wenhan Yang, Ling-Yu Duan, Jiaying Liu

TL;DR本文介绍了一种新的图像编码方案，其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务，并使用紧凑边缘映射连接两种视觉模式，实现了对图像特征的重新构建，其提供了有用的证据支持 MPEG VCM（面向机器的视频编码）标准化工作。

Abstract

The past decades have witnessed the rapid development of image and video coding techniques in the era of big data. However, the signal fidelity-driven coding pipeline design limits the capability of the existing image/video coding frameworks to fulfill the needs of both machine and human vision. In this paper, we come up with a novel →

image coding compressive models generative models human perception machine vision

发现论文，激发创造

可扩展的人机图像编码

研究了一种可扩展的学习图像编解码器，其潜在空间设计支持从简单到复杂的任务，旨在节省机器视觉任务的比特率，同时在输入重建方面与先进的图像编解码器相当。

Jul, 2021

基于特征融合网络的人机可扩展图像编码

我们提出了一种基于学习的可扩展图像编码方法，适用于多种图像识别模型。通过将机器的图像压缩模型与人类的压缩模型相结合，利用特征融合网络实现了高效的图像压缩，并且减少了参数的数量。通过评估图像压缩性能，我们证明了这种可扩展编码方法的有效性。

May, 2024

一种新兴的编码范式 VCM: 一种超越特征和信号的可扩展编码方法

本文旨在研究视频编码方法中出现的新问题 VCM，提出基于预测模型和生成模型的高级压缩技术，同时可用于人类视觉和机器视觉，以实现可扩展的信号表示。通过条件生成网络学习稀疏运动模式来重建视频帧，同时对高水平视觉任务如动作识别非常有效。实验表明，我们的方法相对传统视频编解码器和高度压缩视频的最新技术有很大改进，为人类和机器视觉提供了有前途的编码信号范例。

Jan, 2020

机器视觉视频编码：协作压缩和智能分析的典范

本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM)，并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案，并探讨了未来的方向。

Jan, 2020

面向人类和机器的学习式可扩展视频编码

我们提出了一种全新的视频编码系统，基于条件编码的概念构建，其基础层支持机器视觉任务，而其增强层支持人类视觉重建，实验证明在基础层上，我们的框架优于现有的学习型视频编码和传统视频编码，并且在增强层上有可比性的性能。

Jul, 2023

VVC+M: 人机插拔式可扩展图像编码

提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法，这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能，同时在人类感知方面保持竞争性。

May, 2023

可扩展的视频编码，为人类和机器而设计

本文提出了一种可扩展的视频编码框架，该框架通过基础层比特流支持机器视觉（特别是物体检测）和增强层比特流支持人类视觉，并且结果表明，该框架在物体检测方面比最先进的视频编解码器节省 13-19％的比特率，同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。

Aug, 2022

基于机器感知的图像压缩：分层生成方法

本文介绍了一种层次生成式图像压缩模型，该模型支持多任务分析，通过学习感知图像压缩方法提供可压缩的紧凑表示，并实现高分辨率图像重建以及压缩率和感知性能的平衡。实验结果表明，该模型对于 RGB 基于方法可以降低 99.6% 的比特率并实现可比拟的分析结果。

Apr, 2023

基于 StyleGAN 先验的可扩展人脸图像编码：朝向人机协作视觉压缩

利用 StyleGAN 先验，本研究探讨了利用派生的分层表示构建有效的可伸缩编码范式以满足人和机器的需求。通过逐步学习三层编码分层语义表示，构建机器智能和人类视觉感知支持的渐进式范式，并通过分层可伸缩熵转换器降低层间冗余，达到高效压缩目标。通过多任务可扩展率失真目标对提议的方案进行联合优化，证实在面部图像压缩方面，该范式优于最新的可变视频编码 (VVC) 标准，提供了人机协同压缩方面的新见解。

Dec, 2023

基于 CNN 的图像编码在人类视觉层进行后期处理

本文提出了一种将后处理方法整合到可伸缩编码方案中以提高解码图像质量的方法，并通过与传统方法的比较验证了其有效性。

May, 2024