可扩展的人机图像编码
我们提出了一种全新的视频编码系统,基于条件编码的概念构建,其基础层支持机器视觉任务,而其增强层支持人类视觉重建,实验证明在基础层上,我们的框架优于现有的学习型视频编码和传统视频编码,并且在增强层上有可比性的性能。
Jul, 2023
本文提出了一种可扩展的视频编码框架,该框架通过基础层比特流支持机器视觉(特别是物体检测)和增强层比特流支持人类视觉,并且结果表明,该框架在物体检测方面比最先进的视频编解码器节省 13-19%的比特率,同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。
Aug, 2022
提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法,这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能,同时在人类感知方面保持竞争性。
May, 2023
本文介绍了一种新的图像编码方案,其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务,并使用紧凑边缘映射连接两种视觉模式,实现了对图像特征的重新构建,其提供了有用的证据支持 MPEG VCM(面向机器的视频编码)标准化工作。
Jan, 2020
我们提出了一种基于学习的可扩展图像编码方法,适用于多种图像识别模型。通过将机器的图像压缩模型与人类的压缩模型相结合,利用特征融合网络实现了高效的图像压缩,并且减少了参数的数量。通过评估图像压缩性能,我们证明了这种可扩展编码方法的有效性。
May, 2024
本研究设计了一种基于神经网络的端到端学习的机器目标图像编解码器,通过一系列训练策略,解决了计算机视觉任务损失、图像失真损失和数据率损失之间竞争的问题,并在目标检测和实例分割任务中取得了比 VVC 标准更好的表现,是首个端到端学习的针对机器的图像编解码器。
Aug, 2021
利用 StyleGAN 先验,本研究探讨了利用派生的分层表示构建有效的可伸缩编码范式以满足人和机器的需求。通过逐步学习三层编码分层语义表示,构建机器智能和人类视觉感知支持的渐进式范式,并通过分层可伸缩熵转换器降低层间冗余,达到高效压缩目标。通过多任务可扩展率失真目标对提议的方案进行联合优化,证实在面部图像压缩方面,该范式优于最新的可变视频编码 (VVC) 标准,提供了人机协同压缩方面的新见解。
Dec, 2023
本文提出了一种基于神经网络的编解码及任务模型的联合训练方法,用于实现远程机器任务分析的图像压缩,研究表明,进行编解码和任务网络的联合优化可以显著提高任务准确性,在训练和部署的限制下,可以选择性地进行编码器、解码器或任务网络的微调,并仍然实现高于现成解决方案的速率和准确度。
Nov, 2020