基于学习的视频编码的光流与模式选择
本研究提出了多模式视频压缩(MMVC)框架,通过深度学习和区块式模式集成选择最佳模式来适应各种动作模式和熵模型,包括 ConvLSTM,光流条件化特征域预测和特征传播,通过对空间块进行时间预测,以最大程度地减少数据的冗余和失真。实验表明,与最先进的视频压缩方案和标准编解码器相比,本方法在 PSNR 和 MS-SSIM 度量方面获得了更好或具有竞争力的结果。
Apr, 2023
本论文提出一种粗到细的(C2F)深度视频压缩框架,通过引入超先验信息和模式预测方法进行更好的运动补偿和压缩编码,实现了超越当前标准(如 HEVC,UVG 和 MCL-JCV)的性能。
Jun, 2022
本文提出了一种名为 MoNet 的运动幻觉网络,通过从外观特征想象光流特征,而无需依赖光流计算,大幅度提高了视频分类性能,同时能够帮助削减一半的计算和数据存储负担。
May, 2019
本文提出使用一阶光流和二阶流预测来利用时间相关性进行视频编码,采用一阶段学习方法将流作为连续帧的量化特征包装,然后利用联合空间 - 时间先验条件下的适应性上下文熵编码,并使用 ConvLSTM 逐层嵌入联合先验,分别从自回归空间邻居、共位置超元素和时间邻居中获取。本文的实验评估表明,该方法在常用的测试序列上取得了最先进的表现结果。
Dec, 2019
本文提出了一种多功能的学习视频压缩(VLVC)框架,使用一种模型支持所有可能的预测模式,包括运动补偿模块和流预测模块,可大大减少体素流的传输成本,并在各种情况下支持多功能压缩。实验结果表明,VLVC 不仅支持多功能压缩,还是首个在 MS-SSIM 方面优于最新 VVC/H.266 标准参考软件的端到端学习视频压缩方法。
Nov, 2021
本研究提出了一种基于任务的流程(TOFlow),该方法采用自我监督的方式以任务特定的方式学习运动表示,并在视频插值、视频去噪 / 去块以及视频超分辨率等三个视频处理任务上超越了传统的光流方法。
Nov, 2017
本文提出了一种新的端到端学习的视频编码框架,将图像压缩通过条件编码进行泛化,允许处理同一编码器的帧内和帧间信息,并通过最小化速率失真成本进行训练,无需预训练或代理损失,其灵活性在三种编码配置下得到评估(全帧内、低延迟 P 和随机访问),并且表现出与 HEVC 视频编解码器一样具有竞争性的性能。
Apr, 2021
使用运动矢量来提高压缩视频的光流估计的速度和准确性,构建了四个包含帧和运动矢量的压缩视频光流数据集,实验证明 MVFlow 相对现有模型减少 1.09 AEPE 或节省 52% 时间来达到类似准确性。
Aug, 2023