逐步空间循环神经网络用于局内预测
通过建立一个具有预测编码特点的预测神经网络(PredNet),本文探讨了将预测未来的视频帧作为无监督学习的规则来学习视觉世界结构的问题。 在对计算机生成的物体的运动进行鲁棒的学习的同时,也能够缩短学习视野并从中获得内部表示。此外,这种网络架构也能够将检测到的流和视觉场景中的物体运动进行深度学习,为估算自我位置提供支持。 综上所述,预测是无监督学习的强大框架之一,能够进行隐式的物体和场景结构学习。
May, 2016
通过神经网络构建一套高效率图像压缩方法, 新架构由编码器、解码器、二值化器和熵编码神经网络组成, 可变压缩比率, 能在感知度量上对JPEG进行改善, 并取得了最好的表现。
Aug, 2016
本论文提出了一种基于循环卷积神经网络的有损图像压缩方法,通过像素权重损失、改进循环神经网络的结构以及自适应位分配算法,成功取得了多项实验成果优于BPG、WebP、JPEG2000和JPEG等标准方式。
Mar, 2017
本研究介绍了双射门控循环单元,为计算机视觉中未来视频预测问题提供了一种有效的方法,能够使编码/解码器之间的状态共享并减少计算成本,达到了与最优方法相当的性能。
Dec, 2017
本研究提出了PredRNN++,一种改进的递归网络,用于视频预测学习。该方法通过利用一种名为因果LSTM的新型递归单元来增加相邻状态之间的转换深度,从而提高了其对空间和时间记忆的建模能力,并通过引入Gradient Highway architecture来缓解梯度反向传播中的不良影响。在合成和实际视频数据集上的测试结果表明,该模型能够在困难的物体遮挡场景下缓解消失梯度问题,并产生最先进的预测结果。
Apr, 2018
这篇论文介绍了一种新的基于神经科学理论“预测编码”的神经网络,该网络包含反馈和前馈连接,能够让相邻层次间逐渐优化表征以最小化预测误差,并在图像分类和对象识别等任务上获得了具有竞争力的性能。
May, 2018
本文提出了一种采用循环自编码器(RAE)和循环概率模型(RPM)的递归学习视频压缩(RLVC)方法,以充分利用视频帧之间的时间相关性,实验结果表明,该方法在 PSNR 和 MS-SSIM 方面都达到了最先进的学习视频压缩性能,优于默认的 x265 低延迟 P(LDP)设置和 SSIM-tuned x265 等。
Jun, 2020
本文提出了一种空时信息保留和感知增强的模型(STIP)来解决循环神经网络(RNNs)视频预测方法在高分辨率数据集中由于信息丢失问题和感知不敏感的均方误差(MSE)丢失函数而表现不佳的问题,并成功实现了比各种最先进方法更为精准的视频预测效果。
Jun, 2022
本文提出了一种强大的熵模型,能够高效地捕捉视频中的空间和时间依赖关系,使用潜在先验来减少时间冗余,使用双重空间先验来并行地减少空间冗余。此外,该熵模型还具有内容自适应量化机制,有助于编解码器实现平滑的速率调整,并通过动态位分配改善最终的速率失真性能。实验结果表明,使用该熵模型作为支撑,与最高压缩比配置下的H.266(VTM)相比,我们的神经编解码器可以在 UVG 数据集上实现18.2%的比特率节省,这是神经视频编解码器发展的新里程碑。
Jul, 2022
本研究针对现有视频编解码器在解码复杂性和系统延迟方面的问题,提出了一种新颖的基于隐式神经表示(INR)的视频编码框架PNVC。该框架通过多项设计创新显著提高了压缩性能,相较于HEVC HM 18.0,BD率节省超过35%,并且为1080p内容保持了20+ FPS的解码速度,为INR视频编码的实际应用奠定了基础。
Sep, 2024