人机视觉编码:可扩展的图像编码方法
我们提出了一种基于学习的可扩展图像编码方法,适用于多种图像识别模型。通过将机器的图像压缩模型与人类的压缩模型相结合,利用特征融合网络实现了高效的图像压缩,并且减少了参数的数量。通过评估图像压缩性能,我们证明了这种可扩展编码方法的有效性。
May, 2024
本文旨在研究视频编码方法中出现的新问题 VCM,提出基于预测模型和生成模型的高级压缩技术,同时可用于人类视觉和机器视觉,以实现可扩展的信号表示。通过条件生成网络学习稀疏运动模式来重建视频帧,同时对高水平视觉任务如动作识别非常有效。实验表明,我们的方法相对传统视频编解码器和高度压缩视频的最新技术有很大改进,为人类和机器视觉提供了有前途的编码信号范例。
Jan, 2020
本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM),并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案,并探讨了未来的方向。
Jan, 2020
我们提出了一种全新的视频编码系统,基于条件编码的概念构建,其基础层支持机器视觉任务,而其增强层支持人类视觉重建,实验证明在基础层上,我们的框架优于现有的学习型视频编码和传统视频编码,并且在增强层上有可比性的性能。
Jul, 2023
提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法,这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能,同时在人类感知方面保持竞争性。
May, 2023
本文提出了一种可扩展的视频编码框架,该框架通过基础层比特流支持机器视觉(特别是物体检测)和增强层比特流支持人类视觉,并且结果表明,该框架在物体检测方面比最先进的视频编解码器节省 13-19%的比特率,同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。
Aug, 2022
本文介绍了一种层次生成式图像压缩模型,该模型支持多任务分析,通过学习感知图像压缩方法提供可压缩的紧凑表示,并实现高分辨率图像重建以及压缩率和感知性能的平衡。实验结果表明,该模型对于 RGB 基于方法可以降低 99.6% 的比特率并实现可比拟的分析结果。
Apr, 2023
利用 StyleGAN 先验,本研究探讨了利用派生的分层表示构建有效的可伸缩编码范式以满足人和机器的需求。通过逐步学习三层编码分层语义表示,构建机器智能和人类视觉感知支持的渐进式范式,并通过分层可伸缩熵转换器降低层间冗余,达到高效压缩目标。通过多任务可扩展率失真目标对提议的方案进行联合优化,证实在面部图像压缩方面,该范式优于最新的可变视频编码 (VVC) 标准,提供了人机协同压缩方面的新见解。
Dec, 2023