研究了一种可扩展的学习图像编解码器,其潜在空间设计支持从简单到复杂的任务,旨在节省机器视觉任务的比特率,同时在输入重建方面与先进的图像编解码器相当。
Jul, 2021
本文提出了一种可扩展的视频编码框架,该框架通过基础层比特流支持机器视觉(特别是物体检测)和增强层比特流支持人类视觉,并且结果表明,该框架在物体检测方面比最先进的视频编解码器节省 13-19%的比特率,同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。
Aug, 2022
我们提出了一种全新的视频编码系统,基于条件编码的概念构建,其基础层支持机器视觉任务,而其增强层支持人类视觉重建,实验证明在基础层上,我们的框架优于现有的学习型视频编码和传统视频编码,并且在增强层上有可比性的性能。
Jul, 2023
我们提出了一种基于学习的可扩展图像编码方法,适用于多种图像识别模型。通过将机器的图像压缩模型与人类的压缩模型相结合,利用特征融合网络实现了高效的图像压缩,并且减少了参数的数量。通过评估图像压缩性能,我们证明了这种可扩展编码方法的有效性。
May, 2024
本文提出了一种将后处理方法整合到可伸缩编码方案中以提高解码图像质量的方法,并通过与传统方法的比较验证了其有效性。
我们提出了一种专门为机器任务而设计的可扩展点云数据编解码器,基于 PointNet++ 的架构,并在 ModelNet40 数据集上进行了测试,显示了与之前的非专用编解码器相比显著的改进。
Feb, 2024
本文介绍了一种新的图像编码方案,其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务,并使用紧凑边缘映射连接两种视觉模式,实现了对图像特征的重新构建,其提供了有用的证据支持 MPEG VCM(面向机器的视频编码)标准化工作。
Jan, 2020
提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法,这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能,同时在人类感知方面保持竞争性。
May, 2023
本文介绍了一种层次生成式图像压缩模型,该模型支持多任务分析,通过学习感知图像压缩方法提供可压缩的紧凑表示,并实现高分辨率图像重建以及压缩率和感知性能的平衡。实验结果表明,该模型对于 RGB 基于方法可以降低 99.6% 的比特率并实现可比拟的分析结果。
Apr, 2023
利用 StyleGAN 先验,本研究探讨了利用派生的分层表示构建有效的可伸缩编码范式以满足人和机器的需求。通过逐步学习三层编码分层语义表示,构建机器智能和人类视觉感知支持的渐进式范式,并通过分层可伸缩熵转换器降低层间冗余,达到高效压缩目标。通过多任务可扩展率失真目标对提议的方案进行联合优化,证实在面部图像压缩方面,该范式优于最新的可变视频编码 (VVC) 标准,提供了人机协同压缩方面的新见解。
Dec, 2023