本文提出了一种基于深度学习模型的视频压缩方法,其中利用神经网络的非线性表征能力和学习基于光流估计获取运动信息并重构当前帧的方法,同时采用两个 auto-encoder 风格的神经网络来压缩相应的运动和残差信息以共同优化所有组件,并通过单一损失函数来一起考虑减少压缩比特数和提高解码视频质量之间的权衡,实验证明该方法在 PSNR 方面优于广泛使用的 H.264 视频编码标准,在 MS-SSIM 方面甚至与最新的标准 H.265 相当。
Nov, 2018
本文通过量化解码复杂度作为优化目标,系统研究了神经图像编解码器的速率 - 失真 - 复杂度(RDC)优化,并设计了一个可变复杂度的神经编解码器,支持精细的复杂度调整,展示了 RDC 优化在神经图像编解码器中的可行性和灵活性。
May, 2023
通过我们的速率 - 失真计算(RDC)研究,我们展示了虽然浮点运算(FLOPs)和运行时间对于准确地比较神经压缩方法都是不足够的,但我们还是找到了一种新型神经压缩架构,其在计算要求和 RD 性能之间具有最佳的实证权衡。
Sep, 2023
通过提出几种新颖的方法,如专门用于机器学习的高效骨干网络和基于优化的流预测方案,我们的方法 ELF-VC 在视频压缩的低延迟模式下(只有 I 帧和 P 帧)具有更高的性能和更好的效率,与主流视频标准(如 H.264 、 H.265 、 AV1)和所有机器学习编解码器相比,在比特率范围内具有很好的 PSNR 、 MS-SSIM 、 VMAF 等指标,而且至少比所有机器学习编解码器都快 5 倍,并有更少的参数。
Apr, 2021
C3 是一种神经压缩方法,通过对每个图像或视频进行过度拟合从而获得强大的率失真性能,其解码复杂度与其他具有相似率失真性能的神经模型相比可降低一个数量级。C3 在 COOL-CHIC 的基础上进行改进,并且还开发了将 C3 应用于视频的新方法。在 CLIC2020 图像基准测试中,我们将 C3 解码的每个像素的 MAC 数减少到不足 3k,与 H.266 编解码器的 VDH 性能相当。在 UVG 视频基准测试中,我们将 C3 解码的每个像素的 MAC 数减少到不足 5k,与 Video Compression Transformer 的 VDH 性能相当。
Dec, 2023
该研究提出了一种基于三种新技术的统一框架,包括通道关注模块、高斯混合模型和解码器侧增强模块,命名为 EDIC,可用于基于学习的图像压缩,并说明该方法优于当前所有先进的图像压缩方法,同时将解码速度提高了超过 150 倍。
Feb, 2020
本文提出了一种基于深度神经网络编码的新方法。通过利用多尺度的运动补偿网络进行大范围运动的估计和补偿,同时采用自适应空时上下文模型进行高效熵编码,采用非局部注意力模块进行特征聚合和激活,通过对多模块的优化和多帧训练策略进行时间误差的最小化,最后将其与其他方法进行比较,证明了在流行的测试序列中,在 PSNR 和 MS-SSIM 失真度量方面均取得了一致的优异性能。
Jul, 2020
本文提出了一种基于可逆神经网络(INNs)的 Invertible Encoding Network 方法来构建更好的图像空间和潜在特征空间之间的转换,并在 Kodak、CLIC 和 Tecnick 数据集上证明了该方法在高分辨率图像方面优于现有的学习图像压缩方法和压缩标准(包括 VVC (VTM 12.1))的实验结果。
Aug, 2021
提出了一种新颖的多尺度特征压缩方法,并结合可学习的压缩器和多尺度特征融合网络实现端到端的优化,以及轻型编码器的设计。该方法在对象检测中取得了着眼的性能提升,并且在仅保留 0.002-0.003% 未压缩特征数据量的情况下,仍可以实现接近无损的性能。
Jun, 2023
本研究提出了一种基于学习的分层双向视频编解码器,结合分层运动预测和端到端优化,实现了目前为止在 PSNR 和 MS-SSIM 上报告的学习视频压缩方案的最佳 R-D 结果,相对于传统视频编解码器,在 PSNR 和 MS-SSIM 以及 HM16.23 参考软件的 MS-SSIM 上性能均优于 x265 和 SVT-HEVC 编码器的 R-D 性能。
Dec, 2021