VVC+M: 人机插拔式可扩展图像编码
本文介绍了一种新的图像编码方案,其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务,并使用紧凑边缘映射连接两种视觉模式,实现了对图像特征的重新构建,其提供了有用的证据支持 MPEG VCM(面向机器的视频编码)标准化工作。
Jan, 2020
本文提出了一种可扩展的视频编码框架,该框架通过基础层比特流支持机器视觉(特别是物体检测)和增强层比特流支持人类视觉,并且结果表明,该框架在物体检测方面比最先进的视频编解码器节省 13-19%的比特率,同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。
Aug, 2022
图像编码技术旨在降低图像表示所需的比特率,同时最大程度地减少机器视觉分析准确性的下降。本研究提出了一种基于对抗训练的有效解码器微调方案,以显著提高图像编码技术的视觉质量,同时保持机器分析准确性,无需在推理阶段增加额外的比特率或参数。实验结果表明,在忽略任务性能分数相对变化 - 1.6% 的情况下,完全消除了棋盘格伪影。对于一些可容忍某些伪影的情况,例如机器消费是主要目标的情况,该技术可以提高像素保真度和特征保真度分数,同时不影响任务性能。
Jan, 2024
我们提出了一种全新的视频编码系统,基于条件编码的概念构建,其基础层支持机器视觉任务,而其增强层支持人类视觉重建,实验证明在基础层上,我们的框架优于现有的学习型视频编码和传统视频编码,并且在增强层上有可比性的性能。
Jul, 2023
本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM),并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案,并探讨了未来的方向。
Jan, 2020
本研究提出了一种名为 NN-VVC 的混合编解码器,结合了 E2E-learned 图像编解码器和传统视频编解码器 (CVC),在图像和视频编码领域为机器实现高性能。实验证明,该系统在多个数据集和机器视觉任务上较 VVC 实现了高达 - 43.20% 和 - 26.8% 的 Bjøntegaard Delta 速率减小。据我们所知,这是第一篇在多个数据集和多个机器视觉任务上展示了优于 VVC 的混合视频编解码器的研究论文。
Jan, 2024
本文旨在研究视频编码方法中出现的新问题 VCM,提出基于预测模型和生成模型的高级压缩技术,同时可用于人类视觉和机器视觉,以实现可扩展的信号表示。通过条件生成网络学习稀疏运动模式来重建视频帧,同时对高水平视觉任务如动作识别非常有效。实验表明,我们的方法相对传统视频编解码器和高度压缩视频的最新技术有很大改进,为人类和机器视觉提供了有前途的编码信号范例。
Jan, 2020
我们提出了一种基于学习的可扩展图像编码方法,适用于多种图像识别模型。通过将机器的图像压缩模型与人类的压缩模型相结合,利用特征融合网络实现了高效的图像压缩,并且减少了参数的数量。通过评估图像压缩性能,我们证明了这种可扩展编码方法的有效性。
May, 2024
本文介绍了一种基于 Versatile Video Coding 的视频编码方案,用于物体检测,通过减小图像尺寸和对比度的方式实现了更好的编码性能和物体检测精度。
May, 2023