基于深度学习的多用途视频编码中的帧内模式推导

Apr, 2022

基于深度学习的多用途视频编码中的帧内模式推导

Deep Learning-Based Intra Mode Derivation for Versatile Video Coding

Linwei Zhu, Yun Zhang, Na Li, Gangyi Jiang, Sam Kwong

TL;DR该研究提出了一种基于深度学习的内部模式导出方法来减少编码位消耗并在可变编码块中适应不同的量化参数及方案，实验结果显示此方法在Y、U、V三个分量可以达到平均2.28%、1.74%和2.18%的比特率降低。

Abstract

In intra coding, rate distortion optimization (RDO) is performed to achieve the optimal intra mode from a pre-defined candidate list. The optimal intra mode is also required to be encoded and transmitted to the d

发现论文，激发创造

减少HEVC编码复杂度的深度学习方法

本研究提出了一种基于深度学习的方法，用于预测视频编码中的 CU 分区，以降低 HEVC 的复杂度，并在实验中取得了优于现有方法的效果。

Sep, 2017

利用多尺度运动补偿和时空上下文模型的神经视频编码

本文提出了一种基于深度神经网络编码的新方法。通过利用多尺度的运动补偿网络进行大范围运动的估计和补偿，同时采用自适应空时上下文模型进行高效熵编码，采用非局部注意力模块进行特征聚合和激活，通过对多模块的优化和多帧训练策略进行时间误差的最小化，最后将其与其他方法进行比较，证明了在流行的测试序列中，在PSNR和MS-SSIM失真度量方面均取得了一致的优异性能。

Jul, 2020

使用深度学习的并行速率失真优化量化

通过基于神经网络的方法来实现速率-失真优化量化(RDOQ), 用于视频压缩标准HEVC中的后量化步骤中，使其在实时硬件编码器中的执行开销降低。该方法在HM 16.20中的实现，比起标量量化方法能够获得更好的性能表现，同时在光度方面实现了1.64% BD-rate的节省，是一个可行的代替RDOQ算法的解决方案。

Dec, 2020

基于视觉分析的图像编码速率失真模型

该论文提出了一种面向视觉分析的率失真模型，基于机器学习算法的方法确定了每个编码单元的重要程度，并提出了一种新的失真度量模型以提高图像压缩的品质，从而在多个典型视觉分析任务中实现了高达28.17%的比特率节约。

Apr, 2021

学习图像压缩中的增强可逆编码技术

本文提出了一种基于可逆神经网络（INNs）的 Invertible Encoding Network 方法来构建更好的图像空间和潜在特征空间之间的转换，并在 Kodak、CLIC 和 Tecnick 数据集上证明了该方法在高分辨率图像方面优于现有的学习图像压缩方法和压缩标准（包括 VVC (VTM 12.1)）的实验结果。

Aug, 2021

端到端速率失真优化的学习式分层双向视频压缩

本研究提出了一种基于学习的分层双向视频编解码器，结合分层运动预测和端到端优化，实现了目前为止在 PSNR 和 MS-SSIM 上报告的学习视频压缩方案的最佳 R-D 结果，相对于传统视频编解码器，在 PSNR 和 MS-SSIM 以及 HM16.23参考软件的 MS-SSIM 上性能均优于x265和SVT-HEVC编码器的 R-D 性能。

Dec, 2021

基于神经数据的转换，用于学习图像压缩

本文介绍了一种基于学习图像压缩中的神经数据依赖性变换和连续在线模式决策机制的新方法，并探讨了其在编码效率方面的优越性。

Mar, 2022

基于超先验引导方式预测的粗到细的深度视频编码

本论文提出一种粗到细的（C2F）深度视频压缩框架，通过引入超先验信息和模式预测方法进行更好的运动补偿和压缩编码，实现了超越当前标准（如HEVC，UVG和MCL-JCV）的性能。

Jun, 2022

基于CNN的VVC快速帧间分区动态路径预测

提出了一种基于卷积神经网络（CNN）的方法，通过预测VVC中的最佳分区路径来加速分区过程。在实验中，该方法在BD-rate方面取得了0.44％至4.59％的效率损失范围内，同时加速范围从16.5％到60.2％，超过了其他最先进的解决方案，并且是该领域中最轻量级的方法之一。

Oct, 2023

基于轻量级卷积神经网络的VVC帧间分割加速

本文提出了一种基于卷积神经网络（CNN）的方法来加速VVC中的分区，该方法在编码树单元（CTU）级别操作，将每个CTU分割成8x8个固定网格块，每个网格中的单元格与该区域内的分区深度相关联，带有轻量级的网络用于预测此网格，通过限制四进制树（QT）分割搜索并避免不太可能选中的分区来达到加速的效果。实验证明，该方法在VVC Test Model (VTM)10的RandomAccess Group Of Picture 32（RAGOP32）模式中，可以实现从17%到30%的加速，以及以0.37%到1.18%的BD率增加的合理效率下降。

Dec, 2023