LSCD:用于视频压缩的大规模屏幕内容数据集
我们提出了一种ML-based的视频编码算法,通过评估不同分辨率和基于商业编解码器的标准视频压缩测试集发现,在低延迟模式下相对于HEVC/H.265, AVC/H.264和VP9,我们的算法通常产生更小的代码。并且,我们的方法不会出现图块失真和像素化,可以产生更加视觉上令人愉悦的视频。
Nov, 2018
本文系统、全面地回顾了基于神经网络的图像和视频压缩技术的发展现状及未来趋势。特别是,介绍了通过深度学习和HEVC框架实现的先进视频编码技术,并回顾了基于神经网络的端到端图像和视频编码框架,展示了他们在生成高效率信号表示结构方面的探索和未来的研究趋势。
Apr, 2019
本文提出了一种交叉通道上下文模型,用于在深度图像压缩中的潜在变量。与传统的 2D mask 卷积只能捕捉空间上下文不同,在局部上下文中,加入交叉通道上下文可以更好地留存邻近通道的信息。
Mar, 2021
本文提出了一种端到端的学习视频压缩方法,利用多尺度时序上下文优化压缩方法,在压缩方案的编解码模块中填充学习到的时序上下文,以丢弃并行运算麻烦的自回归熵模型,实现更实用的解码时间,并将该方案与 H.264、H.265 以及 H.266 的官方参考软件进行比较,在 PSNR 和 MS-SSIM 方面均实现了比官方软件更高的比特率节省。
Nov, 2021
提出增强神经视频编解码器的上下文多样性,分别从时间和空间维度引入了层次质量模式、基于光流的编码框架以及四叉树分区以增加上下文多样性,实验结果表明,相比现有技术,该编解码器的比特率节省达到23.5%,并在PSNR方面超越了传统编解码器/ECM的下一代。
Feb, 2023
Versatile video coding framework is proposed to learn compact representations for both human and machine vision, featuring a feature-based compression loop and cross-domain motion encoder/decoder, with evaluation results showing its compression efficiency on different video tasks with benchmark datasets.
Jun, 2023
该研究提出了第一个在移动设备上实时解码1080p YUV420视频的神经视频编解码器,它利用基于块的运动补偿算法实现了高效编解码,并通过在神经信号处理器上同时运行神经网络组件、在移动GPU上运行并行熵编码以及在加速器的变换核上实现变换,从而在性能上显著超过之前的设备上编解码器。
Oct, 2023
提出一种基于运动感知、空时域通道上下文编码的视频压缩网络(MASTC-VC),该网络利用变分自编码器(VAEs)学习隐藏表示,捕捉帧内像素和帧间运动的特征,并通过多尺度运动感知模块(MS-MAM)和空时域通道上下文模块(STCCM)提高编码效率。在三个公共基准数据集上进行的综合实验表明,MASTC-VC在PSNR度量上对H.265/HEVC (HM-16.20)平均BD-速率有10.15%的节省,对H.266/VVC (VTM-13.2)平均MS-SSIM度量上有23.93%的BD-速率节省。
Oct, 2023
屏幕内容与自然场景不同,有噪音少、重复模式和高对比度等独特特征。本文提出了改进的两阶段八度卷积残差块(IToRB)用于高低频特征提取,以及级联的两阶段多尺度残差块(CTMSRB)用于改进屏幕内容的多尺度学习和非线性优化。此外,文章还引入了基于窗口的注意模块(WAM),用于捕捉图像中高对比度区域的像素关联。我们还构建了一个多样的屏幕内容图像压缩数据集(SDU-SCICD2K)用于训练,包括文本、图表、图形、动画、电影、游戏和屏幕内容与自然场景混合的图像。实验结果表明,我们的方法在屏幕内容图像的速率-失真性能上优于现有的图像压缩方法。代码公开可在此URL获取 Net.git。
Jul, 2024
本研究针对当前视频压缩领域中,平均BD值计算方法可能导致的误导性结论进行分析,尤其是在不同编码器操作比特率范围不匹配的情况下。提出以单视频为单位计算BD值并对其进行平均的新方法,从而实现对学习视频编码器的更公平评估。实验结果显示,BD值的计算方式显著影响编码器间的比较结果。
Sep, 2024