面向人类和机器的学习式可扩展视频编码
本文提出了一种可扩展的视频编码框架,该框架通过基础层比特流支持机器视觉(特别是物体检测)和增强层比特流支持人类视觉,并且结果表明,该框架在物体检测方面比最先进的视频编解码器节省 13-19%的比特率,同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。
Aug, 2022
本研究设计了一种基于神经网络的端到端学习的机器目标图像编解码器,通过一系列训练策略,解决了计算机视觉任务损失、图像失真损失和数据率损失之间竞争的问题,并在目标检测和实例分割任务中取得了比 VVC 标准更好的表现,是首个端到端学习的针对机器的图像编解码器。
Aug, 2021
本文介绍了一种新的图像编码方案,其通过利用压缩模型和生成模型共同支持机器视觉和人的视觉感知任务,并使用紧凑边缘映射连接两种视觉模式,实现了对图像特征的重新构建,其提供了有用的证据支持 MPEG VCM(面向机器的视频编码)标准化工作。
Jan, 2020
本研究提出了一种名为 NN-VVC 的混合编解码器,结合了 E2E-learned 图像编解码器和传统视频编解码器 (CVC),在图像和视频编码领域为机器实现高性能。实验证明,该系统在多个数据集和机器视觉任务上较 VVC 实现了高达 - 43.20% 和 - 26.8% 的 Bjøntegaard Delta 速率减小。据我们所知,这是第一篇在多个数据集和多个机器视觉任务上展示了优于 VVC 的混合视频编解码器的研究论文。
Jan, 2024
本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM),并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案,并探讨了未来的方向。
Jan, 2020
提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法,这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能,同时在人类感知方面保持竞争性。
May, 2023
我们提出了一种 ML-based 的视频编码算法,通过评估不同分辨率和基于商业编解码器的标准视频压缩测试集发现,在低延迟模式下相对于 HEVC/H.265, AVC/H.264 和 VP9,我们的算法通常产生更小的代码。并且,我们的方法不会出现图块失真和像素化,可以产生更加视觉上令人愉悦的视频。
Nov, 2018
Versatile video coding framework is proposed to learn compact representations for both human and machine vision, featuring a feature-based compression loop and cross-domain motion encoder/decoder, with evaluation results showing its compression efficiency on different video tasks with benchmark datasets.
Jun, 2023
本文提出了一种基于神经网络的编解码及任务模型的联合训练方法,用于实现远程机器任务分析的图像压缩,研究表明,进行编解码和任务网络的联合优化可以显著提高任务准确性,在训练和部署的限制下,可以选择性地进行编码器、解码器或任务网络的微调,并仍然实现高于现成解决方案的速率和准确度。
Nov, 2020