视频像素网络

Oct, 2016

Video Pixel Networks

Nal Kalchbrenner, Aaron van den Oord, Karen Simonyan, Ivo Danihelka, Oriol Vinyals...

TL;DR提出一种新的概率视频模型，Video Pixel Network (VPN)，它可以很好地估计视频像素点之间离散的联合分布，其在 Moving MNIST 和 Robotic Pushing 基准测试中都取得了最好的性能表现。

Abstract

We propose a probabilistic video model, the video pixel network (VPN), that estimates the discrete joint distribution of the raw pixel values in a video. The model and the →

probabilistic video model video pixel network neural architecture moving mnist robotic pushing

发现论文，激发创造

像素递归神经网络

本文介绍了一种深度神经网络模型，用于在两个空间维度上序列预测图像像素；该模型对图像的离散概率进行建模，并在深层循环网络中使用了快速的二维循环层和残差连接，实现了比以前的最新技术更好的自然图像日志似然度分数。

Jan, 2016

价值预测网络

本文提出了一种新型的深度强化学习架构 Value Prediction Network，将无模型和有模型强化学习方法集成到一个神经网络中，它通过学习一个动态模型，预测未来价值而非未来观测，实验结果表明，VPN 在需要细致计划但难以建立准确观测预测模型的随机环境中具有比无模型和有模型基线更多的优点，此外，VPN 在数个 Atari 游戏上表现优于 Deep Q-Network (DQN)，具有学习良好状态表示的潜力。

Jul, 2017

使用辅助变量的 PixelCNN 模型进行自然图像建模

本论文探讨自然图像的概率模型，并通过引入辅助变量扩展了 PixelCNN 架构家族的自回归模型，提出了两个新的基于不同图像转换的生成式图像模型，包括图像的分辨率金字塔。该模型解决了现有 PixelCNN 模型的两个已知缺点，并表明其产生的图片样本更加真实。

Dec, 2016

视频传播网络

该研究提出了使用视频传播网络进行语义分割的方法，该方法使用时不需要访问未来帧，并且与基于任务的最佳方法相比具有更高的性能。

Dec, 2016

投影潜空间中的视频概率扩散模型

提出了一种名为投影潜空间扩散模型（PVDM）的新型生成模型，该模型在低维潜空间中学习视频分布，通过自编码器将视频投影为二维形状的潜变量，使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序，能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比，PVDM 在 FVD 评估指标上获得了最高的得分。

Feb, 2023

视频压缩的学习

本文提出了 PixelMotionCNN 的概念，并采用基于学习的框架进行视频压缩，该框架包括迭代分析 / 综合，二值化等组件，实验结果表明该方案与 H.264 编解码器具有相当的性能表现，为未来视频编码的进一步提高压缩效率和功能提供了可能的新方向。

Apr, 2018

大规模并行视频网络

本文介绍了一类因果视频理解模型，旨在通过最大化吞吐量、最小化延迟和减少时钟周期的数量来提高视频处理的效率，利用操作流水线和多速率时钟的优势，每个时间步对每个帧执行最少量的计算 (例如仅四个卷积层)，以产生输出，通过将这些操作以流水线的方式进行深度并行计算，应用于现有图像架构并分析在两个视频任务上的行为：动作识别和人体关键点定位。结果表明，在几乎不损失性能的情况下，可以实现显著的并行性和速度提升。

Jun, 2018

VPN++：重新思考视频姿态嵌入以理解日常活动

提出了 Video-Pose Network (VPN) 用于识别日常活动，该模型包含两个不同的方向：一个是通过特征层面的蒸馏将 Pose 知识转移到 RGB 中，另一个是通过注意层面的蒸馏模仿姿势驱动的注意。该模型在 4 个公共数据集上表现出了高速且具有噪声姿势的鲁棒性。

May, 2021

使用像素度量学习的快速视频目标分割

该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法，并使用全卷积网络作为嵌入模型，使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入，如在第一帧中的分割遮罩（半监督情况下），或者一个稀疏的点击点集合（交互情况下），并在计算成本上获得了很好的结果。在半监督场景中，该方法达到了与现有技术相比竞争性的结果，但计算成本仅为每帧 275 毫秒。在交互式场景中，该方法能够实时响应用户的每个输入，并达到了与竞争方法相当的质量，但交互程度要少得多。

Apr, 2018

VPN: 学习日常生活活动的视频姿态嵌入

本文提出一种新的 Video-Pose Network（VPN）框架，其中空间嵌入和注意力网络为其两个关键组成部分。在多个数据集上的实验证明，VPN 优于现有技术在动作识别方面的性能，并能更好地利用 ADL 的细微视觉模式来提高识别能力。

Jul, 2020