基于 StyleGAN 先验的可扩展人脸图像编码：朝向人机协作视觉压缩

Dec, 2023

基于 StyleGAN 先验的可扩展人脸图像编码：朝向人机协作视觉压缩

Scalable Face Image Coding via StyleGAN Prior: Towards Compression for Human-Machine Collaborative Vision

Qi Mao, Chongyu Wang, Meng Wang, Shiqi Wang, Ruijie Chen...

TL;DR利用 StyleGAN 先验，本研究探讨了利用派生的分层表示构建有效的可伸缩编码范式以满足人和机器的需求。通过逐步学习三层编码分层语义表示，构建机器智能和人类视觉感知支持的渐进式范式，并通过分层可伸缩熵转换器降低层间冗余，达到高效压缩目标。通过多任务可扩展率失真目标对提议的方案进行联合优化，证实在面部图像压缩方面，该范式优于最新的可变视频编码 (VVC) 标准，提供了人机协同压缩方面的新见解。

Abstract

The accelerated proliferation of visual content and the rapid development of machine vision technologies bring significant challenges in delivering visual data on a gigantic scale, which shall be effectively represented to satisfy both human and machine requirements. In this work, we i

visual content hierarchical representations scalable coding paradigm compression human-machine collaborative compression

发现论文，激发创造

人机视觉编码：可扩展的图像编码方法

本文介绍了一种新的图像编码方案，其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务，并使用紧凑边缘映射连接两种视觉模式，实现了对图像特征的重新构建，其提供了有用的证据支持 MPEG VCM（面向机器的视频编码）标准化工作。

Jan, 2020

可扩展的人机图像编码

研究了一种可扩展的学习图像编解码器，其潜在空间设计支持从简单到复杂的任务，旨在节省机器视觉任务的比特率，同时在输入重建方面与先进的图像编解码器相当。

Jul, 2021

基于特征融合网络的人机可扩展图像编码

我们提出了一种基于学习的可扩展图像编码方法，适用于多种图像识别模型。通过将机器的图像压缩模型与人类的压缩模型相结合，利用特征融合网络实现了高效的图像压缩，并且减少了参数的数量。通过评估图像压缩性能，我们证明了这种可扩展编码方法的有效性。

May, 2024

基于机器感知的图像压缩：分层生成方法

本文介绍了一种层次生成式图像压缩模型，该模型支持多任务分析，通过学习感知图像压缩方法提供可压缩的紧凑表示，并实现高分辨率图像重建以及压缩率和感知性能的平衡。实验结果表明，该模型对于 RGB 基于方法可以降低 99.6% 的比特率并实现可比拟的分析结果。

Apr, 2023

内容感知 GAN 压缩

该研究提出了用于无条件 GAN 压缩的一种新方法。该方法结合了通道修剪，知识蒸馏和内容感知，使模型在保持图像质量的同时具有更高的压缩率，可应用于各种图像生成和编辑任务。

Apr, 2021

基于图像自适应 GAN 的重建

本研究针对深度生成模型如变分自编码器和生成对抗网络在高复杂度图片样本表现的不足，提出一种图像自适应的修复方案，增强复原的表达能力。在图像超分辨率和压缩感知方面进行了实证表明其优势。

Jun, 2019

VVC+M: 人机插拔式可扩展图像编码

提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法，这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能，同时在人类感知方面保持竞争性。

May, 2023

SemanticStyleGAN：学习组合生成先验进行可控图像合成和编辑

通过训练一个生成器来分别对局部语义部分进行建模，控制不同区域的纹理并且实现更加细粒度的合成和编辑，SemanticStyleGAN 作为具有内置解缠结的通用先验模型，可以促进基于 GAN 的应用程序的发展并实现更多的下游任务。

Dec, 2021

极限学习图像压缩的生成对抗网络

本研究基于生成对抗网络构建了一个图像压缩系统，其中包括编码器、解码器 / 生成器和多尺度鉴别器，并使用全生成式学习压缩目标。模型可合成存储受限的细节，实现在比之前方法失败且出现严重伪影的比特率下，较视觉上令人满意的结果。此外，如果有原始图像的语义标签映射可用，则本方法可以从标签映射中合成出解码后图像的不重要区域，例如街道和树，并相应地减少存储成本。一个用户研究证实，即使使用两倍以上的比特，低比特率下我们的方法都优于现有技术。

Apr, 2018

面向人类和机器的学习式可扩展视频编码

我们提出了一种全新的视频编码系统，基于条件编码的概念构建，其基础层支持机器视觉任务，而其增强层支持人类视觉重建，实验证明在基础层上，我们的框架优于现有的学习型视频编码和传统视频编码，并且在增强层上有可比性的性能。

Jul, 2023