采用对比度减弱的物体检测 VVC 扩展方案
本研究提出了一种名为 NN-VVC 的混合编解码器,结合了 E2E-learned 图像编解码器和传统视频编解码器 (CVC),在图像和视频编码领域为机器实现高性能。实验证明,该系统在多个数据集和机器视觉任务上较 VVC 实现了高达 - 43.20% 和 - 26.8% 的 Bjøntegaard Delta 速率减小。据我们所知,这是第一篇在多个数据集和多个机器视觉任务上展示了优于 VVC 的混合视频编解码器的研究论文。
Jan, 2024
本文提出了一种基于神经网络的方法,通过对编码后的视频进行后处理来提高图像识别准确性,尤其是物体检测准确性,可使用最新的视频编码方法 VVC 和最新的物体检测模型 YOLO-v7,即使在低比特率下也可以实现高的物体检测准确度。
Apr, 2023
提出了一种新颖的多尺度特征压缩方法,并结合可学习的压缩器和多尺度特征融合网络实现端到端的优化,以及轻型编码器的设计。该方法在对象检测中取得了着眼的性能提升,并且在仅保留 0.002-0.003% 未压缩特征数据量的情况下,仍可以实现接近无损的性能。
Jun, 2023
本文提出了一种可扩展的视频编码框架,该框架通过基础层比特流支持机器视觉(特别是物体检测)和增强层比特流支持人类视觉,并且结果表明,该框架在物体检测方面比最先进的视频编解码器节省 13-19%的比特率,同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。
Aug, 2022
提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法,这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能,同时在人类感知方面保持竞争性。
May, 2023
Versatile video coding framework is proposed to learn compact representations for both human and machine vision, featuring a feature-based compression loop and cross-domain motion encoder/decoder, with evaluation results showing its compression efficiency on different video tasks with benchmark datasets.
Jun, 2023
本文旨在探讨机器视觉中的视频编码新领域 ——Video Coding for Machines (VCM),并系统地回顾了从 MPEG 标准化的独特视角出发的视频压缩和特征压缩的最新技术。最终提出了潜在的 VCM 解决方案,并探讨了未来的方向。
Jan, 2020
本文旨在研究视频编码方法中出现的新问题 VCM,提出基于预测模型和生成模型的高级压缩技术,同时可用于人类视觉和机器视觉,以实现可扩展的信号表示。通过条件生成网络学习稀疏运动模式来重建视频帧,同时对高水平视觉任务如动作识别非常有效。实验表明,我们的方法相对传统视频编解码器和高度压缩视频的最新技术有很大改进,为人类和机器视觉提供了有前途的编码信号范例。
Jan, 2020
本文提出了一种新的框架,利用视频压缩的低延迟配置和上下文自适应视频融合方法,提高 BasicVSR ++ 方法的质量,已在 NTIRE22 挑战中得到验证,并在定量指标和视觉质量方面与之前的方法相比均有所提高。
Feb, 2023
本文提出了一种基于深度学习模型的视频压缩方法,其中利用神经网络的非线性表征能力和学习基于光流估计获取运动信息并重构当前帧的方法,同时采用两个 auto-encoder 风格的神经网络来压缩相应的运动和残差信息以共同优化所有组件,并通过单一损失函数来一起考虑减少压缩比特数和提高解码视频质量之间的权衡,实验证明该方法在 PSNR 方面优于广泛使用的 H.264 视频编码标准,在 MS-SSIM 方面甚至与最新的标准 H.265 相当。
Nov, 2018